표본의 통계량으로부터 모평균을 추정하는 것과 같은 원리를 사용하여, 모평균에 대한 가설을 검정할 수 있다. 예를 들어 “어떤 공장에서 생상한 나사못의 지름은 8mm이다.”라는 가설이 있을 때 표본 조사를 통해 이 가설이 맞는지를 알아보는 것은 모평균에 대한 검정이다. 평균에 대한 가설의 검정은 표본으로부터 얻은 통계량으로 모수를 추정하고, 그 추정치가 가설에서 말하는 값에 부합할 확률이 어느 수준인지를 판단하는 것이므로, 모평균의 추정과 사실 그 원리는 동일하다. 대신에 통계학에서는 가설을 설정하고 이를 검정하는 방법을 규격화하여 사용한다.
검정은 다음과 같은 순서로 이루어진다. 우선 어떤 모수의 값이 얼마인지에 대한 가설과 유의수준을 설정한다. 유의 수준이란 간단히 말해서 검정의 결론이 잘못될 확률이다. 그리고 모집단에 대한 표본평균을 확률 변수로 할 때, 이 확률변수의 분포를 구한다. 그런 다음 실제 표본을 조사하여 표본 평균을 계산한다. 계산된 표본 평균이 평균의 확률 분포에 따라 나타날 수 있는 확률을 구한다. 만약 표본 평균이 나타날 확률이 유의수준보다 낮다면, “본래의 가설이 맞다고 가정했을 때, 표본 조사의 결과가 그러한 가정에서는 나타나기 힘든 수치이므로 이 가설을 기각한다.”는 결론을 내릴 수 있다.
가설
검정에 사용하는 가설은 두 가지가 있다. 귀무 가설과 대립 가설이다. 귀무 가설이 위에서 설명한 “가정”에 해당하는 가설이다. 따라서 “어떤 통계량이 특정한 값과 같다.”라는 등호가 들어가는 표현으로 만들어져야 한다. 우리가 알고 싶어하는 주제가 “평균이 더 높다”, “낮다”, “다르다”의 형태여도 귀무 가설은 항상 “~와 같다”의 형식으로 만들어진다. 대립 가설은 귀무 가설이 기각되었을 때 대신 채택되는 가설로 귀무 가설의 부정의 형태를 띈다.
그렇다면 굳이 왜 이렇게 형식을 만들어서 여기에 맞춰 가설을 만드는 것일까? 그 이유는 검정 가능한 가설의 형식이 정해져 있기 때문이다. “X는 Y와 같다”는 가설은 X와 Y가 같은지만 확인하면 된다. 하지만 “X는 Y와 같지 않다”는 가설은 검정이 어려운데, 그것은 이 하나의 가설을 검정하기 위해서는 X와 Y와 얼마나 다른지에 대한 모든 경우를 확인해야 하기 때문이다. 따라서 계산해야 할 값이 무한히 많아지기 때문에 검정이 불가능해진다. 그래서 통계적 검정에서는 검정하고자 하는 주제 그대로가 아닌 귀무 가설가 대립 가설의 형식으로 각각 가설을 설정하고, 귀무 가설의 채택 여부 만을 확인하는 것이다. 즉, “평균이 50보다 작다”는 것을 검정하려하더라도 실제 계산에서 사용되는 귀무 가설은 “평균은 50이다”가 되어야 한다.
유의 수준
유의 수준은 검정을 통해 결론을 내릴 때 오류를 범할 수준을 말한다. 가설 검정에서의 오류는 2종류가 있고, 이를 각각 제 1종 오류와 제 2종 오류라고 한다. 제 1종 오류는 귀무 가설이 참임에도 불구하고 기각하는 오류이고 제 2종 오류는 반대로 귀무 가설이 거짓이지만 채택하는 오류이다. 이러한 통계적 오류는 완전히 회피할 수는 없지만, 대신에 어느 정도의 확률로 검정의 결과가 오류일 것이라는 점을 미리 정하는 것이고, 이것이 유의수준이다. 통상 통계 검정에서 유의 수준은 제 1종 오류를 중심으로 정의한다. 제 1종 오류를 알파 오류, 제 2종 오류를 베타 오류라고도 부르기에 유의 수준을 α 라고 표기한다.
중심 극한 정리로부터 표본 평균의 분포는 모 평균을 중심으로 \frac{\sigma^2}{n}를 분산으로 하는 정규 분포에 근사한다고 말할 수 있다. 따라서 귀무 가설로부터 표본평균의 확률 분포를 만들기 위해서는 모분산을 알아야 한다. 그러나 현실적으로 분산을 알지 못하는 경우가 더 많다. 이 때, 표본의 크기가 충분히 크다면 표본 분산을 사용하면 된다. 모분산을 알지 못하고 표본의 크기가 크지 않다면 이 경우에는 평균의 확률 분포가 정규 분포가 아닌 t분포를 따른다고 본다. t분포는 ‘자유도’라는 하나의 모수를 가지는 분포로, 정규 분포보다는 조금 더 완만한 형태를 띄고 있고 자유도가 커지면 정규 분포에 근접한다. (즉 표본수가 적으면 불확설성이 커지고, 표본수가 많으면 정규분포에 근접한다고 이해하면 된다.) 이 때의 자유도는 표본크기 – 1을 사용한다.
일반적으로 유의수준으로는 10%, 5%, 1% 를 많이 사용하며, 1 – α를 신뢰 수준이라고 한다. (통계적 추정에서 신뢰수준 99%, 95%, 90%를 많이 사용하는 것과 같은 맥락) 분산을 알 수 있게 되면 표본 평균의 확률 분포에서 표본 평균이 분포할 수 있는 범위를 추산할 수 있다.
임계치, 채택역과 기각역
표본 평균의 분산을 알 수 있게 되면 표본 평균의 분포를 알 수 있다. 표본 평균이 귀무 가설을 뒷받침하려면 표본 평균의 값은 유의 수준이 지정하는 신뢰 구간 내에 있어야 한다. 표준화된 분포에서 분포 곡선 아래의 넓이는 1이고, 이는 전체 확률 공간을 나타낸다. 유의 수준 α에 대한 신뢰 구간은 평균을 중심으로 그래프의 넓이가 1 – α 이 되는 범위이다. 이 때 해당 범위의 경계를 임계치라고 한다.
양측 검정의 경우 임계치는 모평균을 중심으로 양쪽에 설정되며, 단측 검정의 경우에는 한쪽에 위치한다. 임계치를 기준으로 평균에 가까운 쪽의 범위를 채택역, 바깥의 범위를 기각역이라고 한다. 표본 평균이 채택역에서 발견되면 귀무 가설을 채택하고, 기각역에서 발견되면 귀무 가설을 기각하게 된다. 따라서 양측 검정에서 기각역은 분포 곡선의 양끝 꼬리쪽에 각각 \frac{\alpha}{2} 씩의 공간을 차지하며, 단측 검정에서는 왼쪽 혹은 오른쪽 끝에서 \alpha 만큼의 넓이에 해당한다.
예를 들어 유의수준 5%의 양측 검정에서 기각역의 크기는 유의 수준의 절반인 2.5%에 해당하는 1.96를 사용한다. 이 값은 누적분포함수(CDF)의 역함수인 사분위 함수 (혹은 퍼센트 포인트 함수)를 통해서 계산할 수 있다. 엑셀 및 scipy 패키지에서는 아래와 같은 방식으로 계산할 수 있다.
- 엑셀에서 :
=NORM.S.INV(0.975)
- scipy에서 :
scipy.stats.norm.ppf(0.975)
흔히 사용하는 유의 수준에 대한 검정 방식에 따른 임계치를 알아두는 것도 도움이 될 것이다. 채택역과 기각역을 정할 때에는 단순히 숫자에 의존할 것이 아니라 분포 곡선을 그려보고 그 범위를 정하는 것이 도움이 된다.
채택역의 구간은 모평균 추정과 거의 같은 공식을 사용한다. 다만 표본 평균이 아닌 모평균을 중심으로 구간이 설정된다.
\left[ \mu - Z\frac{\sigma}{\sqrt{n}}, \mu + Z\frac{\sigma}{\sqrt{n}} \right]
표본 평균이 이 구간 내에 있다면 귀무 가설을 기각할 수 없으며, 채택하게 된다.
검정 통계량
모평균에 대한 가설 검정에서 검정 통계량은 표준화된 표본 평균의 값이다. 표본 평균과 가상의 모평균의 편차를 표본평균의 표준편차로 나눈다.
Z = \frac{(\overline{X} - \mu)}{\sigma \div \sqrt{n}}
검정 통계량의 계산에는 모분산인 σ 가 포함된다. 모분산을 알 수 없는 경우에는 두 가지 선택지가 있다. 우선 표본의 크기가 충분한 경우에는 표본 평균이 정규 분포에 근사하므로, 표본 분산을 대신 사용해도 무방하다. 만약 표본의 크기가 충분하지 않다면 표본 분산을 사용하는 대신, 모평균의 분포가 정규 분포가 아닌 스튜던트 t 분포를 따른다고 가정한다. 정규 분포를 Z-분포라고도 하기 때문에 정규 분포를 사용하는 검정을 z-검정, t 분포를 사용하는 검정을 t-검정이라고도 한다.
검정통계량의 절대값이 Z값보다 크다면 표본 평균은 채택역을 벗어나 기각역 내에 있는 셈이 된다. 따라서 채택역을 직접 계산하지 않고 검정 통계량을 계산하여 그 절대값이 Z보다 크다면 귀무 가설을 기각할 수 있게 된다.
p-값
p-값(p-value)은 검정 통계치가 확률 분포상에서 나타날 수 있는 실제 확률값이다. 확률밀도함수(CDF)의 역함수에 계산된 검정통계량을 대입하여 나온 결과치이다. 분포 곡선의 왼쪽에서 p 값을 찾는다면 함수값을 그대로 사용하며, 오른쪽에서 p 값을 찾는 경우에는 1 – p 한 값을 사용해야 한다. 이 값이 유의 수준의 값보다 작다면 귀무 가설을 기각할 수 있다.
판별방법
검정 통계량으로 결론을 내리는 것은 표본을 조사하여 얻은 표본 평균이 있을 법한 확률로 나온 것인지를 보는 것이다. 만약 신뢰구간 바깥에서 표본 평균이 나온다면 이는 1) 가정이 잘못되었거나, 2) 나오기 힘든 확률의 표본에 당첨된 것이다. 2의 경우라면 운이 없게도 제 1종 오류를 범하게 되는 것인데, 어차피 기준이 되는 신뢰구간은 유의 수준에서 결정되는 것이다. 따라서 유의 수준이 ‘제 1종 오류를 범할 수 있는 확률’임을 감안한다면 이 상황에서 귀무 가설을 기각하고 대립 가설을 채택하게 되는 것이다.
귀무 가설을 기각할 수 있는 방법에 대해서는 방금 전 소개한 방법들 중 하나를 사용하면 되며, 이는 다시 정리하면 다음과 같다.
- 임계치를 계산하여 신뢰구간을 정하고, 표본 평균이 신뢰구간 바깥에 있는지 살펴본다.
- 표본 평균을 표준화하여 검정 통계량을 만들고 검정 통계량의 절대값이 Z 점수보다 큰지 살펴본다.
- 검정 통계량의 확률인 p값을 계산하고, 이 p 값이 유의수준 보다 작은지 살펴본다.
이상의 계산 방법은 모두 확률분포에서 표본의 평균이 신뢰구간 바깥에 존재하는지를 검사하는 것과 동일하다. 셋 중 하나를 계산하여, 참이라면 이 표본 평균은 귀무가설의 가정 아래에서는 일반적으로 나올 수 없는 값이므로 귀무가설을 기각하고 대립 가설을 채택하게 된다.
통계적 검정의 의의
통계적 검정은 귀무 가설에서 주장하는 통계량을 가정했을 때, 표본 조사를 통해 얻은 검정 통계량이 충분히 있을 수 있는 일인지를 확인하는 작업이다. 이때 “충분히 있을 수 있다”의 정도를 유의수준이 결정한다. 즉 “평균이 이 값이라면 100번 중에 95번 이상은 표본 평균이 어느 정도 차이 이하를 보이게 된다”는 것을 확인하는 것이다. 검정 통계량이 Z점수보다 크다면 이러한 표본은 귀무 가설이 가정한 모집단 특성하에서는 일어날 수 없는 일로 보고, 귀무 가설을 기각한다.
이 때 표본이 100번중에 한 번 정도 있을 정도의 경우로 뽑힌 것이라면 검정의 결론은 틀린 것이 될 것이다. (제 1종 오류) 그렇지만 전수 조사를 하지 않는 이상 우리는 이 검정이 맞는지 틀린지를 사실 알 수 없다. 따라서 검정의 결론은 늘 틀렸을 가능성을 내포하고 있다는 점을 잊지 말아야 한다.
예제 1
어느 파이프 제조 업체가 생산하는 수도관용 파이프는 길이가 50m이다. 과거 5년 동안의 기록을 볼 때 이 업체가 생산하는 파이프는 표준편차가 10m인 정규분포를 하고 있다. 창고에서 25개의 파이프를 무작위로 추출하여 길이을 측정하였더니 평균 47m가 나왔다. 유의수준 5%에서 파이프의 길이가 평균 50미터가 맞는지 검정하라.
귀무 가설은 “파이프의 길이의 평균은 50미터이다.” 이며, 대립 가설은 “파이프의 길이의 평균은 50미터가 아니다.”이다. 모평균을 50이라고 할 수 있는지를 검정하므로 양측검정(\frac{\alpha}{2} = 0.025)이며, 모집단의 표준편차가 알려져 있는 상황이므로 정규분포를 사용하여 검정할 수 있다. 검정 통계량을 계산해보면 다음과 같다.
\left | \frac{(\overline{X} - \mu)}{\sigma / \sqrt{n}} \right | = 3 / (10 / 5) = 1.5
유의수준 5%의 양측 검정에서 z점수는 1.96이고, 표본으로부터 계산된 검정통계량은 이 값보다 작다. 따라서 귀무 가설을 기각할 수 없다. 따라서 이 회사의 생산품의 길이가 50m라는 것을 95%의 확신을 가지고 말할 수 있다.
예제 2
베어링 생산 업체에서 불량품을 줄이기 위해 새로운 기계를 도입하였다. 과거 불량품 수는 하루 평균 50개, 표준편차 10개인 정규분포로 알려져 있다. 새로운 기계를 도입한 후 불량품이 줄어들었는지를 조사하기 위해 25일간 불량품의 수를 조사하였더니 평균 45개의 불량품이 생산되었다. 5%의 유의 수준에서 불량품이 줄어들었는지를 검정하라
귀무가설은 “불량품의 수는 50개이다” 이며, 대립 가설은 “불량품의 수는 50개 미만이다”가 된다. 이 때 50보다 작은지에 관심이 있으므로 검정 형태는 왼쪽 단측 검정이며, 유의수준은 z_{\alpha} = 0.05로, 이 때의 z점수는 1.64485이다. 1엑셀 함수 = 1 - NORM.S.INV(0.05)
로 계산할 수 있다.
Z점수에 의해 채택역을 계산하면 채택역의 하한 값은 (50 - 1.644 * (10 / 5))
로 46.712이다. 표본 평균인 45는 이 값의 아래에 있으므로 채택역에 속하지 않는다. 따라서 귀무 가설은 기각되며 대립 가설인 “불량품의 수는 50개 미만이다”를 채택하게 된다. 우리는 이 베어링 공장이 생산 설비를 바꾼 후 불량률을 줄였다고 95%의 확신을 가지고 말할 수 있다.
예제 3
어느 도시의 1인당 생활폐기물량은 표준편차가 0.5 킬로그램인 정규 분포를 하고 있다. 주민들의 평균생활폐기물량이 1kg 이상이라는 가설을 검정하기 위해 20명의 쓰레기 배출량을 조사하였더니 표본 평균이 1.3kg으로 조사되었다. 이 가설을 1%의 유의수준에서 검정하라.
귀무가설은 “평균 쓰레기 배출량은 1kg이다.”이고, 대립가설은 “평균 쓰레기 배출량은 1kg을 넘는다”이다. 검정의 형태는 오른쪽 단측 검정이므로 z_{\alpha} = 2.326를 사용한다. 임계치를 구해보면 다음과 같다.
1 + 2.326 \times \frac{0.5}{\sqrt{20}} = 1.260
표본평균 1.3은 이 임계치의 상한보다 크므로 귀무가설은 기각된다.
p값을 사용하여 검정하는 경우, 검정 통계량을 먼저 계산하면 (1.3 - 1)/(0.5 / \sqrt{20}) = 2.683 이다. 표준 정규 분포에서 (이 조사에서 표본은 소 표본이지만, 모집단의 분산을 알고 있다고 가정했으므로 정규 분포를 사용한다.) 검정 통계량의 오른쪽에 해당하는 확률을 계산하면 0.004로 이 값은 유의 수준인 0.01보다 작다. 이번에도 동일하게 귀무가설을 기각할 수 있는 값이 나왔다.
따라서 결론은 1인당 평균 쓰레기 배출량이 1kg이 넘는다고 99%의 확률을 가지고 말할 수 있는 것이다.