표준오차란 무엇일까

어떤 모집단에서 모평균을 추정하기 위해 표본 조사를 시행할 때, 표본의 크기가 충분히 크다면 표본 평균이 모평균에 근접할 가능성이 커진다고 했었던 것을 기억할 것이다. 그리고 여기서 모평균의 신뢰구간을 구하는 공식을 기억하는지? 여기서 사용된 \sigma / \sqrt{n}, 즉 분산을 표본의 수로 나눈 후 제곱근을 취한 값을 ‘표준 오차’라고 부른다. 표준 오차란 무엇이며, 표준 편차와는 어떻게 다를까?

어떤 모집단에서 추출가능한 크기 n인 모든 표본을 조사했을 때, 표본 평균은 그 평균이 모평균과 같으며, 모분산을 표본 크기로 나눈 값을 분산으로 하는 정규 분포를 따르게 되며, 이를 중심 극한 정리라고 한다했다. 표본의 평균 중에서 어떤 것은 모평균보다 클 것이고 어떤 것은 작을 것이다. 표본 통계량은 모수와 차이(오차)를 보이는데, 그것을 다시 평균했을 때에는 서로간의 오차가 상쇄되는 것이다. 하나의 집단에서 편차를 표준화하는 것과 마찬가지로 여러 표본 간의 오차를 표준화한 것이 표준 오차이며, 이는 반복 실험으로 얻은 통계량이 흩어져 있는 정도를 나타낸다.

표준 오차는 오차 범위를 설정하는데 사용된다. 오차 범위는 뉴스 등에서 여론 조사 결과를 언급할 때 주로 괄호속에 들어간다. 이때 괄호 속에 들어가는 말에는 주로 “표본 오차는 95% 신뢰 수준에서 ±3.1%포인트” 같은 말이 나온다.1‘퍼센트포인트’라는 단위가 나오는 것은 주로 이러한 여론 조사가 비율에 대한 추정이기 때문에 그러하다. 신뢰 조사 결과 역시 참값(모든 국민의 의견)에 대한 추정치이므로 오차를 내포하고 있고, 엄밀함을 추가하기 위해서 구간으로 추정하는 것이다. 어떤 사안에 대한 오차가 95% 신뢰수준에서 ±3.1% 포인트이고, 찬성하는 의견이 53%라면 실제 참값은 49.9% ~ 56.1% 사이 어디쯤에 있다는 말로 이해하면 될까?

일상적인 수준에서는 거의 이렇게 받아들이면 될 것 같다. 간혹 이런 이야기도 한다. “신뢰구간 95%라는 것은 그 결과가 95%만큼 참이라는 뜻이 아니라, 똑같은 표본 조사를 100번했을 때 그 중 95번은 이 조사와 같은 결과를 낸다는 뜻이다”. 말 그대로만 생각해보면 100번 중 95번의 확률로 같은 결과가 나온다면 이번 조사 결과가 95% 정도로 맞다는 이야기 아닌가? (95% 참이니까, 100번 중에 95번이 같은 결과가 나오겠지)

표준 오차는 오차 범위를 설정하는데 사용된다고 했다. 모평균 추정 공식에서 모수의 범위는 다음과 같은 공식으로 계산된다.

\left [ \bar{X} - Z{\color{Red} \frac{\sigma}{\sqrt{n}}}, \bar{X} + Z{\color{Red} \frac{\sigma}{\sqrt{n}}} \right ]

표본 평균값에 더해지고 빼지는 값을 오차 한계(margin of error)라 하며, 이 값은 Z-score와 표준 오차의 곱이다. Z 점수는 신뢰수준에 의해 정해지는 값 2표준정규분포의 역함수 값이다. 이므로, 95% 신뢰수준에서는 1.960이다. 그러면 한계 오차는 거꾸로 1.58%라는 것을 알 수 있다. 오차한계 자체가 표준 오차에 상수를 곱한 값이고, 표준 오차는 반복 실험에서 관측값의 통계량이 어느 정도로 분산되는지를 나타내는 값이라고 했다.

따라서 우리는 이 여론조사의 결과를 이렇게 해석해야 한다. 가장 중요한 것은 모수(참값)는 전수 조사를 해보기 전에는 누구도 알 수 없다는 것이며, 우리는 계속 추정만 하고 있다는 것이다.

  • 전수조사를 해서 얻을 수 있는 참 값이 오차 범위 49.9% ~ 56.1% 내에 있을 확률이 95%라 볼 수 있다.
  • 100번 같은 조사를 반복한다면, 각각의 표본 조사에서 얻게 되는 참 값의 추정 구간 (중심 및 구간의 폭 모두)은 모두 다를 것이다. (똑같은 표본으로 100번 같은 조사를 하지는 않겠…) 어떤 조사에서는 47.8% ~ 53.0%로 구간이 나온다던지 하는 식일 것이다. 또 어떤 조사에서는 44.1% ~ 51.5% 가 나올지도 모른다.
  • 그리고 이 100번의 조사 중에서 오차 범위 안에 참값이 있는 조사는 약 95개 정도 될 것이다. 5개의 조사는 표본이 편향되었거나, 다른 확률적 오차로 인해 참값으로부터 멀리 떨어진 구간을 추정하여 빗나갈 것이다.
  • 그렇다고 100번 조사하면 딱 95번 / 5번으로 나뉘어서 맞고 틀리지는 않을 것이다. 96:4 혹은 92:8 등등이 될 수 있을 것이다. 대략, 95:5 의 비율로 참값을 포함하는 구간이 나올 것이다.
  • 실제로 시행한 이 여론 조사가 올바르게 추정한 95개 중 하나인지, 틀리게 추정한 5개 중 하나인지는 알 수 없다.

Read more

워드프레스에서 고스트로 이전

워드프레스에서 고스트로 이전

이 글을 쓰면서도 믿기 힘든 사실인데, 블로그라는 걸 처음 시작한지가 20년이 되었습니다. 이글루스에서 처음 시작했다가, SK컴즈가 인수한다고 발표함과 동시에 워드프레스로 플랫폼을 옮겼죠. 워드프레스오 옮긴 이후에는 호스팅 환경을 이리 저리 옮기긴 했지만 거의 18년 가까이 워드프레스를 사용해온 것 같습니다. 그 동안 워드프레스는 블로깅 툴에서 명실상부한 범용CMS로 발전했습니다. 사실 웬만한 홈페이지들은 이제

By sooop
띄어쓰기에 대한 생각

띄어쓰기에 대한 생각

업무 메일을 쓸 때 가장 많이 쓰는 말 중에 하나가 메일 말미에 ‘업무에 참고 부탁 드립니다.‘인데요, 어느 날부터 아웃룩에서 이 ‘부탁 드립니다’가 틀렸다고 맞춤법 지적을 하기 시작했습니다. 맞는 말은 ‘부탁드립니다’라고 붙여 쓰는 거라고. 사실 아래아한글 시절부터 이전의 MS워드까지, 워드프로세서들의 한국어 맞춤법 검사 실력은 거의 있으나 마나 한

By sooop

구글 포토에서 아이클라우드로 탈출한 후기

한 때 구글 포토가 백업 용량을 무제한으로 제공해 주겠다고해서, 구글 포토를 사용해서 사진을 백업해왔습니다. 물론 이 이야기의 결말은 저나 이 글을 읽고 있는 여러분이나 모두 알고 있습니다. 사실 AI에게 학습 시킬 이미지 데이터를 모으기 위한 것일 뿐이라거나 하는 이야기는 그 당시에도 있었습니다만, 에이 그래도 구글인데 용량은 넉넉하게 주겠지…하는 순진한

By sooop

Julia의 함수 사용팁

연산자의 함수적 표기 Julia의 연산자는 기본적으로 함수이며, 함수 호출 표기와 같은 방식으로 호출하는 것이 가능합니다. 또한 그 자체로 함수이기 때문에 filter(), map() 과 같이 함수를 인자로 받는 함수에도 연산자를 그대로 적용하는 것이 가능합니다. 특히 + 연산자는 sum() 함수와 같이 여러 인자를 받아 인자들의 합을 구할 수 있습니다. 2 + 3 # = 5 +(2,

By sooop