Home » 중심극한정리

중심극한정리

통계적 추정은 표본으로부터 모수를 추정하는 것을 말한다고 했다. 그런데, 통계량은 표본을 추출할 때마다 달라지는데, 어떻게 매번 변하는 통계량을 가지고 모수를 추정할 수 있을까? 통계적 추정은 중심극한정리라는 원리를 근본으로 작동한다. 오늘은 중심 극한 정리가 무엇이며, 통계적 추정에서 어떤 의미를 갖는지 살펴보자.

먼저 확률 변수에 대해 알아보자. 확률 변수(Random Variable)은 프로그래밍할 때 그 변수(값을 저장해놓는다)의 개념과는 좀 다른 것으로, 말 그대로 변하는 값들을 말한다. 즉, 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 말한다. 이 때 확률 변수는 확률에 대한 변수가 아니라, 각 사건 그 자체를 말한다. 0, 1, 2, … , 9로 된 10장의 숫자 중에서 하나를 뽑을 때 뽑히는 각각의 숫자가 모두 확률 변수가 된다. 다시 정리하면 확률 변수는 어떠한 확률을 가지고 나오는 값이다.

확률 분포(Probablity Distribution)는 어떤 확률 변수 X가 가질 수 있는 모든 값과, 각 값이 나타날 수 있는 확률의 분포를 말한다. 숫자 카드를 뽑는 경우에서 확률 분포는 숫자0이 0.1의 확률을 가지며, 숫자 1은 0.1의 확률, 2도 0.1… 이런식으로 뽑을 때 나올 수 있는 카드의 값과 그 카드를 뽑을 확률을 모두 알고 있다면, 카드의 값이 특정 값일 확률 혹은 카드의 값이 범위가 어느 구간 내에 있을 확률을 알 수 있다. 숫자 카드를 뽑았을 때 4이상 6이하가 나올 확률은 확률 분포에서 값이 4, 5, 6 일 때의 확률을 모두 더한 0.3 이라는 것도 알게 된다.

표본을 추출하여 모수를 추정하는 상황을 가정해보자. 모평균을 추정하기 위해 30개씩의 표본을 m번 추출하여 평균을 구해본다. 이 때 표본 평균(통계량)은 매번 추출한 30개의 표본에 따라 값이 변할 것이다. 따라서 표본을 추출하여 평균을 구할 때, 각 표본평균은 확률 변수가 된다. 표본 조사를 m번 시행한다면, 표본 평균별로 나타난 횟수를 기록하여, 표본 평균의 확률 분포를 알 수 있게 된다.

만약 표본 조사를 충분히 많이 수행했다면, 이 확률 분포는 어느 정도 신뢰할만 할 것이다. 따라서 표본을 추출하여 그 표본의 평균을 구하려할 때, 표본평균의 확률 분포에 따라서 해당 표본의 평균이 어느 구간에 존재할 확률이 얼마나 되는지로 예측할 수 있다. 이는 모수의 추정에서도 마찬가지이다. 전수 조사를 하지 않는다면 모수의 정확한 값을 알 수 없다. 대신 표본 평균을 예측하는 것과 동일하게 모수가 어느 구간내에 있을 확률이 어느 정도라는 것은 알 수 있을 것이다.

추론 통계학에서는 어떤 값이 확률 변수이고 이 확률변수가 수학적으로 설명가능한(모델링되어 있는) 분포(정규분포같은)를 따르고 있다면, 그 변수가 특정한 값을 가질 (사건이 발생할) 확률을 계산할 수 있다. 따라서 모수와 어떤 통계량 사이에 어떤 관계가 있다면, 이를 바탕으로 모수에 대한 통계적 추정을 할 수 있는 것이다.


중심 극한 정리

중심 극한 정리는 통계적 추정에서 가장 중요한 원리로, 다음과 같이 정의된다.

“모집단이 평균이 μ이고 표준편자가 σ인 임의의 분포를 이룰 때, 이 모집단으로부터 추출된 표본의 크기 n이 충분히 크다면 표본 평균들이 이루는 분포가 평균이 μ이고 표준편차가 (σ / √n)인 정규 분포에 근접한다.”

그런데 이 말은 왠지 길다보니, 표본의 크기가 충분히 크기만 하다면, 표본의 평균이 모수에 근접한다는 이야기로 들리기도 한다. 하지만 표본과 모집단은 결코 일치하지 않고, 표본은 추출할 때마다 달라지므로 그 크기가 크다고 표본 평균이 모집단 평균에 가까워지지는 않는다. 그럼 이 말은 어떻게 해석해야 할까? 사실 중심 극한 정리를 보다 뭉뚱그려서 일반적인 성질에 대해 풀어보자면 다음과 같다.

“동일한 확률분포를 가진 독립 확률 변수 n 개에 대한 평균의 분포는 n이 충분히 크다면 정규 분포에 가까워진다”

표본 평균은 표본을 추출할 때 마다 달라지므로, 추출된 표본의 통계량은 확률변수가 된다고 했다. 이 추출을 반복하여 나온 표본 평균은 표본의 크기가 적절하다면 (보통 30이상) 그 분포가 (평균이 μ이고 표준편차가 σ / √n인)정규 분포에 근접하게 된다. 이것이 중심 극한 정리의 의미이다. 그런데, 이때 중요한 것은 모집단의 실제 분포는 이 성질과 무관하다. 즉 모집단의 실제 분포가 어떻게 되어있든 상관없이 표본의 통계량이 정규 분포를 따르게 된다는 것은, 표본 조사를 통해 통계랑의 분포를 알아낸다면, 실제 모수가 어느 구간에 있을 확률을 계산해 낼 수 있다는 것이다.

극명한 예로는 로또번호를 들 수 있다. 로또 번호는 1에서 45까지의 자연수 중에서 6개를 고르게 된다. 1~45의 자연수는 균등하게 분포하고 있지만, 여기에서 6개씩 추출한 숫자들의 평균은 정규 분포를 따른다.

댓글 남기기