콘텐츠로 건너뛰기

비율에 대한 검정

지난 시간에 모평균에 대한 검정을 수행했다. 평균에 대한 검정은 표본 조사를 통해서 모집단의 평균이 특정한 값인지 혹은 특정 기준보다 큰지/작은지에 대해 판단하는 검정이었다. 이번 시간에는 모비율에 대한 검정 방법을 알아보도록 하자. 모비율에 대한 분포는 이항분포와 관련이 있다. 이항 분포에서도 표본이 충분히 크면 이행분포가 정규 분포에 근사한다. 이 때 이항 분포의 평균은 p 이고, 분산은 p(1 – p)/n 인 정규 분포를 따른다. 평균에 대한 검정이 정규 분포에 기초한 것이었음을 생각해보면, 모비율 검정에서도 검정 통계량은 똑같은 공식을 사용한다. 검정 통계량 = {표본평균과… 더 보기 »비율에 대한 검정

모평균에 대한 가설 검정

표본의 통계량으로부터 모평균을 추정하는 것과 같은 원리를 사용하여, 모평균에 대한 가설을 검정할 수 있다. 예를 들어 “어떤 공장에서 생상한 나사못의 지름은 8mm이다.”라는 가설이 있을 때 표본 조사를 통해 이 가설이 맞는지를 알아보는 것은 모평균에 대한 검정이다. 평균에 대한 가설의 검정은 표본으로부터 얻은 통계량으로 모수를 추정하고, 그 추정치가 가설에서 말하는 값에 부합할 확률이 어느 수준인지를 판단하는 것이므로, 모평균의 추정과 사실 그 원리는 동일하다. 대신에 통계학에서는 가설을 설정하고 이를 검정하는 방법을 규격화하여 사용한다.

검정은 다음과 같은 순서로 이루어진다. 우선 어떤 모수의 값이 얼마인지에 대한 가설과 유의수준을 설정한다. 유의 수준이란 간단히 말해서 검정의 결론이 잘못될 확률이다. 그리고 모집단에 대한 표본평균을 확률 변수로 할 때, 이 확률변수의 분포를 구한다. 그런 다음 실제 표본을 조사하여 표본 평균을 계산한다. 계산된 표본 평균이 평균의 확률 분포에 따라 나타날 수 있는 확률을 구한다. 만약 표본 평균이 나타날 확률이 유의수준보다 낮다면, “본래의 가설이 맞다고 가정했을 때, 표본 조사의 결과가 그러한 가정에서는 나타나기 힘든 수치이므로 이 가설을 기각한다.”는 결론을 내릴 수 있다.

더 보기 »모평균에 대한 가설 검정

텍스트 오브젝트

vim의 가장 독특한 기능 중 하나를 꼽으라면 “텍스트 오브젝트”를 취급하는 기능입니다. 예를 들어 di) 같은 명령으로 괄호 내부의 텍스트를 삭제하거나, dd 를 사용하여 한 줄 전체를 지우는 것 등이 있습니다. 이러한 동작을 커스텀 함수를 통해서 사용할 수 있을까요?

더 보기 »텍스트 오브젝트

조건부 확률

솔직히 고백하자면 개인적으로도 이 조건부 확률에 대해서 제대로 이해하지 못했었다. 조건부 확률 문제를 단순히 공식을 사용해서 푸는 것과 어느 정도 이해하는 것은 전혀 다른 문제이기 때문이다. 조건부 확률은 단순히 결합가능한 두 사건 사이의 관계의 확률이라기 보다는, 각각의 사건의 확률의 관계를 수식으로 다룬다는 것에 있다.

조건부 확률은 어떤 사건이 일어났을 때의 다른 사건이 일어나는 확률이다. (여기까지는 ‘확률’을 제외하면 일상의 언어로 된 문장이기 때문에 어려울 것이 없다.) 두 사건 A, B가 있고 이 각각의 사건이 일어날 확률을 P(A), P(B) 라고 했을 때, 사건 B가 일어났을 때 사건 A가 일어났을 확률을 ‘사건 B에 대한 사건 A의 조건부 확률’이라 하고 P(A|B) 라고 표기한다.

더 보기 »조건부 확률

표준오차란 무엇일까

어떤 모집단에서 모평균을 추정하기 위해 표본 조사를 시행할 때, 표본의 크기가 충분히 크다면 표본 평균이 모평균에 근접할 가능성이 커진다고 했었던 것을 기억할 것이다. 그리고 여기서 모평균의 신뢰구간을 구하는 공식을 기억하는지? 여기서 사용된 \sigma / \sqrt{n}, 즉 분산을 표본의 수로 나눈 후 제곱근을 취한 값을 ‘표준 오차’라고 부른다. 표준 오차란 무엇이며, 표준 편차와는 어떻게 다를까?

더 보기 »표준오차란 무엇일까

모분산의 신뢰구간 추정

공장에서 생산하는 제품에는 품질 기준이 존재하고, 제조 공정에서 생산되는 제품의 규격은 어느 정도 편차가 존재해서 불량품이 일정 비율 발생한다. 표준 정규 분포를 따르는 k 개의 독립적인 확률변수 X 가 있을 때, X의 제곱의 합이 따르는 분포를 카이제곱분포라 한다. 이 때 변수의 개수인 k는 카이제곱분포의 자유도가 된다.

더 보기 »모분산의 신뢰구간 추정

브라우저에서 PDF 파일이 열리지 않을 때

PDF 문서가 어느 새 보편적으로 사용되면서 파이어폭스나 구글 크롬, 엣지와 같은 웹브라우저들도 자체적으로 PDF 파일을 렌더링할 수 있는 기능을 지원하고 있어서, 별도의 뷰어 프로그램이 없어도 이제 PDF 파일은 어디서든 쉽게 열 수 있는 문서 형식이 되었다. 그런데, 어느 날 갑자기 웹브라우저에서 잘 열리든 PDF 파일이 더 이상 열리지 않는 증상이 생기는 경우가 있다. 이 문제는 사실 같은 원인임에도 두 가지 증상으로 나타나는 것 같다. 디스크에 저장된 PDF 파일을 “다음으로 열기..” 를 통해서 브라우저로 열려고 하거나, PDF 파일을 브라우저로 끌어다 놓았을 때 파일이 열리지 않고 다음과 같이 작동하고 있었다.

  • 문서 내용을 표시하는 대신, 문서 파일을 다운로드 하는 것처럼 작동해서 파일의 복사본이 다운로드 폴더에 저장된다.
  • 다운로드를 하지 않으면서 브라우저에 빈 공간이 표시된다.

이 문제는 주로 구글 크롬 및 이와 동일한 엔진을 사용하는 마이크로소프트 엣지, 오페라에서도 공통으로 발견되며 나의 경우 파이어폭스에서는 여전히 정상적으로 PDF 파일이 열리고 있었다. 이 문제를 어떻게 해결할 수 있는지 살펴보자.

더 보기 »브라우저에서 PDF 파일이 열리지 않을 때

모비율의 추정

어떤 선거입후보자의 지지율이나, 정책에 대한 찬성율, 제품의 불량률 등 모집단의 비율에 대해 관심을 둔다면 역시 표본을 뽑아 조사하여 모비율을 추정할 수 있다. 이항 분포를 하는 확률 변수 X에 대해 표본을 뽑아 측정한 표본 비율은 으로 표시한다. (이때 모비율은 로 표시한다.) 즉 n개의 실험에서 성공 횟수가 X회 발생했다면 이 비율을 표본 비율로 보는 것이다. 이때 n이 충분히 크면 (np >= 5 이며 n(1 – p) >= 5) 표본 비율의 분포는 정규 분포에 가까워진다. 따라서 표본 비율의 분포는 다시 표준정규분포로 나타낼 수… 더 보기 »모비율의 추정

수식 파서를 이용한 계산기 만들기

일전에 수식을 직접 입력 받아 후위식으로 변환하여 계산하는, 사칙연산과 괄호를 처리할 수 있는 계산기를 만들어 본 적이 있는데, 1이 계산기는 지금까지 유용하게 잘 쓰고 있는 중임, 이번에는 좀 다른 계산기를 만들어보고자 한다. 사실 파서를 한 번 직접 구현해보고 싶어서 이리 저리 알아보다가 가장 간단하게 만들어 볼 수 있는 구현체가 수식 파서가 아닐까 해서, 정말 실용적으로 사용 가능한 수식 파서를 사용한 계산기를 구현해 보려고 한다.

더 보기 »수식 파서를 이용한 계산기 만들기

대용량 데이터와 엑셀 파일

엑셀과 같은 프로그램을 스프레드 시트라고 한다. 스프레드 시트는 개념상 무한히 큰 종이를 행과 열로 나누고 여기에 데이터와 수식을 넣어서 표를 계산하거나 데이터를 분석하는 프로그램을 말한다. 하지만 ‘무한히 큰 종이’는 말 그대로 개념적인 것이며, 실제로 컴퓨터의 메모리는 유한하기 때문에 스프레드 시트의 크기 역시 실제로는 유한한 크기를 갖는다.

더 보기 »대용량 데이터와 엑셀 파일