이론적으로 데이터가 정규성을 따를 때, quantiles 값을 x 축으로 표현하게 된다. 실제 데이터들의 quantiles 값을 y 축으로 나타내면, 데이터가 완전한 정규분포를 이루게 되면 아래와 같은 그림이 나오게 된다.
⑴ (참고) 분위수(quantile)
① 분위수 함수 : 누적분포함수 Φ의 역함수
정의역 :{x | 0 ≤ x ≤ 1}
치역 : 관심 있는 집단의 통계량
② 구간의 개수에 따라 100분위수(percent), 4분위수(quartile) 등이 존재
⑵ 정의 : 다음과 같은 점 (x, y)들의 집합
①{(x, y) | Φ = P(X < x) = P(Y < y)}
② x는 표준정규분포의 통계량이고 y는 표본집단의 통계량임을 유의
⑶ 사례 분석
① 정규분포를 따르는 경우 : Q-Q plot은 직선에 가까움
② 오른쪽으로 skew된 경우 (참고) skewness < 0 발상 : 기존 정규분포에서 각 점들을 오른쪽으로 잡아끄는 것을 상기 각 점들의 확률변수가 커지므로 Q-Q plot 상의 각 점이 직선 위로 향함
③ 왼쪽으로 skew된 경우 (참고) skewness > 0 발상 : 기존 정규분포에서 각 점들을 왼쪽으로 잡아끄는 것을 상기 각 점들의 확률변수가 작아지므로 Q-Q plot 상의 각 점이 직선 아래로 향함
출처: https://nate9389.tistory.com/1742
통계학 7-1강. 분위수 대 분위수 플롯(Q-Q plot)
7-1강. 분위수 대 분위수 플лот(Q-Q plot) 추천글 : 【통계학】 1강. 통계자료, 【통계학】 7강. 연속확률분포
Figure. 1. 분위수 대 분위수 플롯(Q-Q plot, quantile-quantile plot)
⑴ (참고) 분위수(quantile)..
nate9389.tistory.com
QQ-Plot 외 데이터의 정규성을 확인하는 방법
Shapiro-Wilk Test 샤피로 윌크 검정
Shapiro-Wilk Test은 표본이 정규 분포로부터 추출된 것인지 테스트하기 위한 방법이다. 검정은 shapiro.test()
함수를 사용하며 이때 귀무가설은 주어진 데이터가 정규 분포로부터의 표본이라는 것이다.
shapiro.test
: 데이터가 정규 분포를 따르는지 샤피로 윌크 검정을 수행한다. 귀무가설은 정규 분포를 따른다는 것이다.
▼ 표 7-15 샤피로 윌크 검정
다음은 정규 분포를 따르는 1,000개의 난수를 발생시킨 뒤 이 숫자들이 정규 분포를 따르는지 샤피로 윌크 검정을 수행한 예다.
shapiro.test(rnorm(1000))
Shapiro-Wilk normality test
data: rnorm(1000)
W = 0.9974,
p-value = 0.1052
p-value > 0.05이므로 데이터가 정규 분포를 따른다는 귀무가설을 기각할 수 없다.
즉 p-value가 클수록 데이터 정규분포를 따른다는 가정이 맞다고 볼 수 있다.
shapiro.test()
외에도 nortest 패키지에는 앤더스 달링 검정(Anderson-Darling Test), 피어슨 카이 제곱 검정(Pearson Chi-Square Test) 등을 사용해 정규성을 검정하는 다양한 함수가 있으니 참고하기 바란다.
thebook.io/006723/ch07/05/02/
R을 이용한 데이터 처리 & 분석 실무: 샤피로 윌크 검정
thebook.io