콘텐츠로 건너뛰기
Home » 모분산의 신뢰구간 추정

모분산의 신뢰구간 추정

공장에서 생산하는 제품에는 품질 기준이 존재하고, 제조 공정에서 생산되는 제품의 규격은 어느 정도 편차가 존재해서 불량품이 일정 비율 발생한다. 표준 정규 분포를 따르는 k 개의 독립적인 확률변수 X 가 있을 때, X의 제곱의 합이 따르는 분포를 카이제곱분포라 한다. 이 때 변수의 개수인 k는 카이제곱분포의 자유도가 된다.

Q = \sum_{i=1}^{n}Z_i\\
{}\\
Q \sim \chi^{2}(n)

모분산의 신뢰구간 구하기

확률변수 X가 정규분포를 따를 때, 크기 n인 표본의 분산과 모분산의 비율은 다음과 같이 자유도가 n – 1 인 카이제곱분포를 따른다고 한다.

\frac{(n-1)S^2}{\sigma^2} \sim \chi^{2}(n - 1)

위 공식에서 \sigma^2의 범위를 유의수준 α에 대해 구하면 다음과 같은 범위를 얻을 수 있다.

P \left [ \frac{(n-1)S^2}{\chi^{2}(n-1, \frac{\alpha}{2})}  < \sigma^{2} < \frac{(n-1)S^2}{\chi^{2}(n-1, 1 - \frac{\alpha}{2})}\right ] = 1 - \alpha

예제를 통해 확인해보자. 어느 과목 수강생의 성적이 정규 분포를 따른다고 할 때, 그 중 15명의 시험 성적을 뽑아본 결과가 아래와 같다. 이 때 95% 신뢰 수준에서 모분산에 대한 신뢰구간을 추정해보자.

[66, 78, 18, 96, 85, 63, 73, 83, 65, 80, 75, 56, 95, 77, 66]

먼저 표본의 분산을 구한다. (표본 분산이므로 n – 1 로 나누어야 한다.) 이 값은 350.209로 산출된다. 이제 카이제곱분포표나 엑셀 함수, 파이썬 등을 사용해서 자유도 14일 때, 0.025, 0.975의 분포값을 찾는다. 이 값들은 각각 5.269, 26.119이다. 이 각각의 값들로 (n - 1) * s^{2}을 나눠주면 [187.716, 871.056] 이라는 범위를 갖는다. 즉 전체 수강생 성적의 분산은 이 구역에 있을 확률이 95%로 추정된다.

파이썬으로 계산할 때에는 아래와 같은 값을 얻는다. 퍼센트 수준을 인자로주고 분포값을 얻는 것이니 cdf의 역함수인 pdf()를 사용해야 한다.

import numpy as np
from scipy import stats as st

xs = np.array([66, 78, 18, 96, 85, 63, 73, 83, 65, 80, 75, 56, 95, 77, 66])
n = len(xs) 
s2 = xs.var(ddof=1)  # 표본분산: 350.209
x_left = st.chi2.ppf(0.025, df=n-1) # 5.629
x_right = st.chi2.ppf(0.975, df=n-1) # 26.119

area = ((n - 1) * s2 / x_left, (n - 1) * s2 / x_right)
print(area)
# (871.0555894140166, 187.71557433626796)

엑셀에서 카이제곱분포값은 CHISQ.INV(0.025, 14), CHISQ.INV.RT(0.025, 14) 를 사용하여 계산할 수 있다.