콘텐츠로 건너뛰기
Home » 중심극한정리

중심극한정리

어떤 집단의 특성을 정확하게 알고 싶을 때, 가장 이상적인 해결 방법은 해당 집단의 전체 구성원을 조사해보는 것이다. 어떤 선거 후보에 대한 실제 지지율을 알고 싶다면 모든 유권자들을 만나서 지지여부를 조사하는 것이 가장 정확한 답에 가까울 것이며, 남자 고등학생들의 키를 알고 싶다면 모든 남자 고등학생들의 키를 조사하면 될 일이다. 하지만 이런 전수조사는 현실적으로 비용과 시간의 한계 때문에 실제로 진행하는 것은 불가능에 가깝다.

그래서 사람들은 전체 모집단의 일부를 표본으로 뽑아, 표본조사를 수행한다. 그리고는 통계학의 힘을 빌려서 표본 조사의 결과를 바탕으로 모집단의 특성을 추정해보는 것이다. 이렇게 표본 조사를 통해서 모집단의 특성값을 추정하는 기법을 통계적 추정이라 하는데, 통계적 추정을 뒷받침하는 가장 중요한 원리로 ‘중심극한정리’가 있다. 오늘은 중심 극한 정리가 무엇인지 알아보고자 한다.


표본 조사

앞서도 말했지만 모집단에 대한 전수조사를 하지 않는 이유는 무엇보다도 비용이다. 비용과 시간 때문에 현실적으로는 전수조사가 불가능하기 때문에 표본 조사를 통해 모집단의 특성을 추정하는 것이다. 하지만, 거꾸로 전수조사가 가능한 정도로 충분히 작은 모집단이 있고, 여기에서 추출 가능한 모든 표본을 조사할 수 있다면 적어도 표본으로부터 얻은 통계값과 그 모수 사이에 어떤 관계가 있는지를 관찰해 볼 수 있을 것이다.

2, 4, 6, 8, 10 이 적인 카드가 있다고 하자. 이 중에 한 장의 카드를 뽑았을 때, 그 카드에 적힌 숫자가 확률변수 X가 될 수 있다. 그렇다면 X의 확률 분포는 다음과 같이 정리할 수 있다.

X246810
P(X)0.20.20.20.20.2

모든 숫자가 나올 수 있는 확률은 동등하고, 따라서 X는 평균이 6, 분산이 8인 균등분포를 하고 있다는 것을 알 수 있다.

그럼 여기서 2장의 카드를 뽑아서 그 평균을 조사해보자. 5장의 카드에서 한 장을 두 번 뽑는 복원 추출이기 때문에 전체 경우의 수는 25가지가 나올 수 있다. 전체적으로 해보기에는 너무 귀찮지만… 컴퓨터를 사용하면된다!

간단한 코드를 통해서 5장의 카드에서 2장을 뽑는 모든 경우에 대해 그 표본의 평균을 계산하고 기록하였다. 그리고 다시 표본평균들의 평균과 분포를 조사하여 보았다.

from itertools import product
ns = [2, 4, 6, 8, 10]
# ms는 ns에서 가능한 크기가 2인 모든 표본의 평균
ms = [sum(ks) / 2 for ks in product(ns, repeat=2)]

# ms의 평균과 분산
m_ = sum(ms) / len(ms)
v = sum((x - m_)**2 for x in ms) / len(ms)
print(m_, v)
# (6.0, 4.0)

# 각 표본평균의 분포
ds = {}
for m in ms:
    ds[m] = ds.get(m, 0) + 1
for k, v in sorted(ds.items()):
    print(f"{k:4.1f}:{v:2d}:{'*' * v}")

 2.0: 1:*
 3.0: 2:**
 4.0: 3:***
 5.0: 4:****
 6.0: 5:*****
 7.0: 4:****
 8.0: 3:***
 9.0: 2:**
10.0: 1:*

위의 조사에서 관찰할 수 있는 정보는 다음과 같다.

  1. 표본 평균들의 평균(6.0)은 모집단의 평균(6.0)과 같다.
  2. 표본 평균들의 분산(4.0)은 모집단 분산(8.0)을 표본의 수로 나눈 것과 같다.
  3. 표본 평균들은 모평균을 중심으로 멀어질수록 그 빈도가 낮아지는 분포를 한다.

모든 표본 평균의 평균이 모평균과 같다는 것은 쉽게 추측할 수 있다. 가능한 모든 표본 조합에서는 결국 모든 카드가 같은 횟수만큼 뽑힐 것이기 때문에, 전체의 평균을 내면 모든 카드가 한 번씩 뽑힌 모평균과 동일한 평균값이 나올 것이다.

그런데 표본평균의 분산이 모집단의 분산을 표본의 수로 나눈 것과 같다는 점이 약간 신기하게 느껴진다. 하지만 이것도 상식적인 수준에서 생각해보자. 표본의 크기가 크면 클수록 표본의 특성은 모집단의 특성에 근접할 것이다. 여기서의 분산은 “표본평균의 분산” 이므로, 표본의 크기가 크면 클수록 표본의 평균은 실제 모집단 평균에서 더 가까워질 것이며, 따라서 표본 평균의 분산이 작게 된다는 의미이다.

세 번째 현상은 어찌보면 당연하게 느껴질 수 있는데, 사실 1, 2번과 일맥상통한다. 표본평균은 표본마다 다르기 때문에 약간 흩어지게 되지만, 표본평균의 평균은 모평균이므로 모평균에 가까울수록 많을 것이라는 것이다. 가장 놀랍고 재미있는 부분은, 표본의 크기가 커지면 이 분포가 정규 분포에 근접하게 된다는 것이다. 그리고 연구에 의해서 알려진 것으로는 이런 현상이 모집단의 분포와는 아무런 상관이 없다는 것이다.

방금 계산해본 예는 표본의 크기가 무척 작았는데, 1~9 사이의 숫자중에서 표본크기 5로 실험해보면 제법 정규분포와 비슷한 모양을 확인할 수 있다. (참고로 평균 6.0, 분산 1.333)


중심 극한 정리와 통계적 추정

방금전 예에서 살펴본 이 특성들이 중심 극한 정리의 내용을 그대로 설명해준다.

“모집단이 평균이 μ이고 분산이 σ²인 임의의 분포를 이룰 때, 이 모집단으로부터 추출된 표본의 크기 n이 충분히 크다면 표본 평균들이 이루는 분포가 평균이 μ이고 분산이 σ² / n 인 정규 분포에 근접한다.”

그런데 이 말은 왠지 길다보니, 표본의 크기가 충분히 크기만 하다면, 표본의 평균이 모수에 근접한다는 이야기로 들리기도 한다. 하지만 표본과 모집단은 결코 일치하지 않고, 표본은 추출할 때마다 달라지므로 그 크기가 크다고 표본 평균이 모집단 평균에 가까워지지는 않는다. 그럼 이 말은 어떻게 해석해야 할까? 사실 중심 극한 정리를 보다 뭉뚱그려서 일반적인 성질에 대해 풀어보자면 다음과 같다.

“동일한 확률분포를 가진 독립 확률 변수 n 개에 대한 평균의 분포는 n이 충분히 크다면 정규 분포에 가까워진다”

어쨌든 모집단의 분포에 독립적이기에, 표본의 크기만 충분하다면 (나중에 알겠지만, ‘충분한 표본’이라는 그 크기의 하한도 생각보다 무척 작다) 거꾸로 표본평균으로부터 모집단에 대한 확률 분포를 알 수 있게 되는 것이다. 따라서 우리가 표본 조사를 통해서 통계적 추정을 할 때에는 “모집단의 평균은 x다”라는 이야기보다는 “모집단의 평균이 x ~ y 사이에 있을 것이다”라는 이야기를 하게된다. 이것을 점추정과 구간추정이라고 하며, 이에 대한 자세한 이야기는 다음 이야기에서 이어서 하도록 하겠다.