통계

비율에 대한 검정

by sooopd
2022-05-072022-04-26
스터디, 통계

지난 시간에 모평균에 대한 검정을 수행했다. 평균에 대한 검정은 표본 조사를 통해서 모집단의 평균이 특정한 값인지 혹은 특정 기준보다 큰지/작은지에 대해 판단하는 검정이었다. 이번 시간에는 모비율에 대한 검정 방법을 알아보도록 하자. 모비율에 대한 분포는 이항분포와 관련이 있다. 이항 분포에서도 표본이 충분히 크면 이행분포가 정규 분포에 근사한다. 이 때 이항 분포의 평균은 p 이고, 분산은 p(1 – p)/n 인 정규 분포를 따른다. 평균에 대한 검정이 정규 분포에 기초한 것이었음을 생각해보면, 모비율 검정에서도 검정 통계량은 똑같은 공식을 사용한다. 검정 통계량 = {표본평균과… 더 보기 »비율에 대한 검정

모평균에 대한 가설 검정

by sooopd
2022-04-302022-04-26
스터디, 통계

표본의 통계량으로부터 모평균을 추정하는 것과 같은 원리를 사용하여, 모평균에 대한 가설을 검정할 수 있다. 예를 들어 “어떤 공장에서 생상한 나사못의 지름은 8mm이다.”라는 가설이 있을 때 표본 조사를 통해 이 가설이 맞는지를 알아보는 것은 모평균에 대한 검정이다. 평균에 대한 가설의 검정은 표본으로부터 얻은 통계량으로 모수를 추정하고, 그 추정치가 가설에서 말하는 값에 부합할 확률이 어느 수준인지를 판단하는 것이므로, 모평균의 추정과 사실 그 원리는 동일하다. 대신에 통계학에서는 가설을 설정하고 이를 검정하는 방법을 규격화하여 사용한다.

검정은 다음과 같은 순서로 이루어진다. 우선 어떤 모수의 값이 얼마인지에 대한 가설과 유의수준을 설정한다. 유의 수준이란 간단히 말해서 검정의 결론이 잘못될 확률이다. 그리고 모집단에 대한 표본평균을 확률 변수로 할 때, 이 확률변수의 분포를 구한다. 그런 다음 실제 표본을 조사하여 표본 평균을 계산한다. 계산된 표본 평균이 평균의 확률 분포에 따라 나타날 수 있는 확률을 구한다. 만약 표본 평균이 나타날 확률이 유의수준보다 낮다면, “본래의 가설이 맞다고 가정했을 때, 표본 조사의 결과가 그러한 가정에서는 나타나기 힘든 수치이므로 이 가설을 기각한다.”는 결론을 내릴 수 있다.

표준오차란 무엇일까

by sooopd
2022-04-102022-03-29
통계

어떤 모집단에서 모평균을 추정하기 위해 표본 조사를 시행할 때, 표본의 크기가 충분히 크다면 표본 평균이 모평균에 근접할 가능성이 커진다고 했었던 것을 기억할 것이다. 그리고 여기서 모평균의 신뢰구간을 구하는 공식을 기억하는지? 여기서 사용된 $\sigma / \sqrt{n}$ , 즉 분산을 표본의 수로 나눈 후 제곱근을 취한 값을 ‘표준 오차’라고 부른다. 표준 오차란 무엇이며, 표준 편차와는 어떻게 다를까?

모분산의 신뢰구간 추정

by sooopd
2022-04-092022-06-07
통계

공장에서 생산하는 제품에는 품질 기준이 존재하고, 제조 공정에서 생산되는 제품의 규격은 어느 정도 편차가 존재해서 불량품이 일정 비율 발생한다. 표준 정규 분포를 따르는 k 개의 독립적인 확률변수 X 가 있을 때, X의 제곱의 합이 따르는 분포를 카이제곱분포라 한다. 이 때 변수의 개수인 k는 카이제곱분포의 자유도가 된다.

모비율의 추정

by sooopd
2022-04-022022-04-03
통계

어떤 선거입후보자의 지지율이나, 정책에 대한 찬성율, 제품의 불량률 등 모집단의 비율에 대해 관심을 둔다면 역시 표본을 뽑아 조사하여 모비율을 추정할 수 있다. 이항 분포를 하는 확률 변수 X에 대해 표본을 뽑아 측정한 표본 비율은 으로 표시한다. (이때 모비율은 로 표시한다.) 즉 n개의 실험에서 성공 횟수가 X회 발생했다면 이 비율을 표본 비율로 보는 것이다. 이때 n이 충분히 크면 (np >= 5 이며 n(1 – p) >= 5) 표본 비율의 분포는 정규 분포에 가까워진다. 따라서 표본 비율의 분포는 다시 표준정규분포로 나타낼 수… 더 보기 »모비율의 추정

모평균의 추정

by sooopd
2022-03-252022-03-23
스터디, 통계

중심극한 정리에 따르면 모집단의 데이터의 분포에 무관하게, 표본의 크기가 충분히 크다면 표본 평균의 분포는 그 평균의 모평균과 같고, 분산이 모분산을 표본수로 나눈 값인 정규분포에 가까워진다. 이 말은 어떤 집단에서 표본을 추출하여 얻는 표본 평균이 모평균의 근처에 있을 가능성이 높다는 의미이다. 그리고 표본 평균의 분산은 모분산을 표본수로 나눈 값이므로 표본의 수가 충분히 크다면 더더욱 표본 평균은 모평균과 가까워질 것이다. 따라서 표본 조사를 통해 얻은 표본 평균을 통해 모평균을 추정하는 것은 너무 터무니 없는 것은 아닌 것이다. 그렇다면 표본 조사를 통한 모평균의 추정은 어떻게 할 수 있을까?

생일 문제

by sooopd
2020-05-16
Python, 스터디, 통계

30명의 사람이 있을 때, 이 중 생일 같은 사람이 최소 2명 있을 확률을 구하고 싶다. 어떻게 계산할 수 있을까? 이러한 문제를 생일 문제라 한다. 흥미로운 점은 생일 문제가 우리의 직관을 비웃는 것 같은 결과를 보인다는 것이다.

예를 들어 당신이 누군가를 만났다고 하자. 그 사람이 당신과 생일이 같을 확률은 얼마일까? 당신의 생일이 정해져 있으므로 그 사람의 생일은 365일 중 같은 날인 하루여야 한다. 이 때의 확률은 1/365로 약 0.274% 밖에 안된다. 이처럼 1년의 날 수가 365일이나 되기 때문에 생일이 같아질 확률이 매우 작아 보인다.