지난 시간에 모평균에 대한 검정을 수행했다. 평균에 대한 검정은 표본 조사를 통해서 모집단의 평균이 특정한 값인지 혹은 특정 기준보다 큰지/작은지에 대해 판단하는 검정이었다. 이번 시간에는 모비율에 대한 검정 방법을 알아보도록 하자.
모비율에 대한 분포는 이항분포와 관련이 있다. 이항 분포에서도 표본이 충분히 크면 이행분포가 정규 분포에 근사한다. 이 때 이항 분포의 평균은 p 이고, 분산은 p(1 – p)/n 인 정규 분포를 따른다. 평균에 대한 검정이 정규 분포에 기초한 것이었음을 생각해보면, 모비율 검정에서도 검정 통계량은 똑같은 공식을 사용한다. 검정 통계량 = {표본평균과 모평균의 차} / {표준편차를 표본수의 제곱근으로 나눈 값}이었으므로, 모비율의 검정 통계량은 다음과 같이 계산된다.
Z = \frac{\bar{p} - p_0}{\sqrt{\frac{p_0 ( 1 - p_0)}{n}}}
검정 절차나 방법은 모평균의 검정과 차이가 없다. 다만 몇 가지 주의할 점이 있다.
- 모평균의 검정에서는 모분산을 모르는 경우, 표본 크기에 따라서 표본 분산을 사용한 정규 분포를 사용하거나 표본이 작은 경우 t 검정을 사용했다. 하지만 모비율의 검정에서는 표본 크기가 너무 작으면 제대로 된 검정을 할 수 없다.
- 모비율 검정을 위해서는 표본의 크기가 충분히 커야 한다 했다. 이는 np > 5 와 n(1-p) > 5 를 동시에 만족해야 한다.
예제
어떤 대선 후보에 대한 지지도는 22%로 알려져 있다. 이것을 알아보기 위하여 500명을 조사하였더니 지지하겠다는 응답자가 98명이었다. 이 후보에 대한 지지도의 모비율이 22%이다 라고 할 수 있는지를 5%의 유의 수준에서 검정하시오.
- 귀무가설 : p = 0.22
- 대립가설 : p ≠ 0.22
- 유의수준 0.05의 양측 검정 (z = 1.96)
표본 크기 500, 표본에서의 지지율은 0.196이다. 검정통계량을 계산해보면 (0.196 – 0.22) / sqrt(0.22 * 0.78 / 500) = -1.2955 가 계산된다. 이 값의 절대값은 하한 임계치인 -1.96보다 크다. 따라서 귀무 가설을 기각할 수 없으므로, 이 대선 후보에 대한 지지율은 22%라 말할 수 있다.
예제
신생아의 남녀 성비는 자연상태에서 103~107 수준이라고 한다. 자연 상태에서의 최대 성비 107을 남아의 출생률로 변환하면 51.7%가 된다. 2021년에 태어난 신생아 2605명의 성비를 조사했더니, 이 중 남아는 1335명이었다.(53.3%) 2021년의 남아 출생비율을 51.7%보다 큰지 유의수준 5%에서 검정하라.
- 귀무가설 : p = 0.517
- 대립가설 : p > 0.517
- 유의수준 0.05의 우측단측검정 (z = 1.644)
검정 통계량을 계산하면 1.615가 나오며, 이는 임계값보다 작은 수치이다. 따라서 귀무 가설을 기각할 수 없으므로 2021년 우리 나라 신생사의 성비가 107을 넘지 않는다고 말할 수 있다.
이 예제는 실제 2021년 통계청 발표 자료를 기준으로 한 것이다. 남아의 출생비율 53.3%를 단순히 성비로 환산하면 118이 넘는 수치이다. 이를 자연 성비가 무너져서 큰일난 것으로 해석하기 보다는 정상성비를 이루는 큰집단에서 표본 조사를 실시했을 때, 이러한 표본 결과가 받아들일 수 있는 수준(5%이상의 확률)으로 결과가 나올 수 있다는 의미로 받아들여야 한다.