콘텐츠로 건너뛰기

조건부 확률

솔직히 고백하자면 개인적으로도 이 조건부 확률에 대해서 제대로 이해하지 못했었다. 조건부 확률 문제를 단순히 공식을 사용해서 푸는 것과 어느 정도 이해하는 것은 전혀 다른 문제이기 때문이다. 조건부 확률은 단순히 결합가능한 두 사건 사이의 관계의 확률이라기 보다는, 각각의 사건의 확률의 관계를 수식으로 다룬다는 것에 있다.

조건부 확률은 어떤 사건이 일어났을 때의 다른 사건이 일어나는 확률이다. (여기까지는 ‘확률’을 제외하면 일상의 언어로 된 문장이기 때문에 어려울 것이 없다.) 두 사건 A, B가 있고 이 각각의 사건이 일어날 확률을 P(A), P(B) 라고 했을 때, 사건 B가 일어났을 때 사건 A가 일어났을 확률을 ‘사건 B에 대한 사건 A의 조건부 확률’이라 하고 P(A|B) 라고 표기한다.

더 보기 »조건부 확률

표준오차란 무엇일까

어떤 모집단에서 모평균을 추정하기 위해 표본 조사를 시행할 때, 표본의 크기가 충분히 크다면 표본 평균이 모평균에 근접할 가능성이 커진다고 했었던 것을 기억할 것이다. 그리고 여기서 모평균의 신뢰구간을 구하는 공식을 기억하는지? 여기서 사용된 \sigma / \sqrt{n}, 즉 분산을 표본의 수로 나눈 후 제곱근을 취한 값을 ‘표준 오차’라고 부른다. 표준 오차란 무엇이며, 표준 편차와는 어떻게 다를까?

더 보기 »표준오차란 무엇일까

모분산의 신뢰구간 추정

공장에서 생산하는 제품에는 품질 기준이 존재하고, 제조 공정에서 생산되는 제품의 규격은 어느 정도 편차가 존재해서 불량품이 일정 비율 발생한다. 표준 정규 분포를 따르는 k 개의 독립적인 확률변수 X 가 있을 때, X의 제곱의 합이 따르는 분포를 카이제곱분포라 한다. 이 때 변수의 개수인 k는 카이제곱분포의 자유도가 된다.

더 보기 »모분산의 신뢰구간 추정

브라우저에서 PDF 파일이 열리지 않을 때

PDF 문서가 어느 새 보편적으로 사용되면서 파이어폭스나 구글 크롬, 엣지와 같은 웹브라우저들도 자체적으로 PDF 파일을 렌더링할 수 있는 기능을 지원하고 있어서, 별도의 뷰어 프로그램이 없어도 이제 PDF 파일은 어디서든 쉽게 열 수 있는 문서 형식이 되었다. 그런데, 어느 날 갑자기 웹브라우저에서 잘 열리든 PDF 파일이 더 이상 열리지 않는 증상이 생기는 경우가 있다. 이 문제는 사실 같은 원인임에도 두 가지 증상으로 나타나는 것 같다. 디스크에 저장된 PDF 파일을 “다음으로 열기..” 를 통해서 브라우저로 열려고 하거나, PDF 파일을 브라우저로 끌어다 놓았을 때 파일이 열리지 않고 다음과 같이 작동하고 있었다.

  • 문서 내용을 표시하는 대신, 문서 파일을 다운로드 하는 것처럼 작동해서 파일의 복사본이 다운로드 폴더에 저장된다.
  • 다운로드를 하지 않으면서 브라우저에 빈 공간이 표시된다.

이 문제는 주로 구글 크롬 및 이와 동일한 엔진을 사용하는 마이크로소프트 엣지, 오페라에서도 공통으로 발견되며 나의 경우 파이어폭스에서는 여전히 정상적으로 PDF 파일이 열리고 있었다. 이 문제를 어떻게 해결할 수 있는지 살펴보자.

더 보기 »브라우저에서 PDF 파일이 열리지 않을 때

모비율의 추정

어떤 선거입후보자의 지지율이나, 정책에 대한 찬성율, 제품의 불량률 등 모집단의 비율에 대해 관심을 둔다면 역시 표본을 뽑아 조사하여 모비율을 추정할 수 있다. 이항 분포를 하는 확률 변수 X에 대해 표본을 뽑아 측정한 표본 비율은 으로 표시한다. (이때 모비율은 로 표시한다.) 즉 n개의 실험에서 성공 횟수가 X회 발생했다면 이 비율을 표본 비율로 보는 것이다. 이때 n이 충분히 크면 (np >= 5 이며 n(1 – p) >= 5) 표본 비율의 분포는 정규 분포에 가까워진다. 따라서 표본 비율의 분포는 다시 표준정규분포로 나타낼 수… 더 보기 »모비율의 추정

수식 파서를 이용한 계산기 만들기

일전에 수식을 직접 입력 받아 후위식으로 변환하여 계산하는, 사칙연산과 괄호를 처리할 수 있는 계산기를 만들어 본 적이 있는데, 1이 계산기는 지금까지 유용하게 잘 쓰고 있는 중임, 이번에는 좀 다른 계산기를 만들어보고자 한다. 사실 파서를 한 번 직접 구현해보고 싶어서 이리 저리 알아보다가 가장 간단하게 만들어 볼 수 있는 구현체가 수식 파서가 아닐까 해서, 정말 실용적으로 사용 가능한 수식 파서를 사용한 계산기를 구현해 보려고 한다.

더 보기 »수식 파서를 이용한 계산기 만들기

대용량 데이터와 엑셀 파일

엑셀과 같은 프로그램을 스프레드 시트라고 한다. 스프레드 시트는 개념상 무한히 큰 종이를 행과 열로 나누고 여기에 데이터와 수식을 넣어서 표를 계산하거나 데이터를 분석하는 프로그램을 말한다. 하지만 ‘무한히 큰 종이’는 말 그대로 개념적인 것이며, 실제로 컴퓨터의 메모리는 유한하기 때문에 스프레드 시트의 크기 역시 실제로는 유한한 크기를 갖는다.

더 보기 »대용량 데이터와 엑셀 파일

:global 명령

:global 혹은 :g 명령은 Ex 명령인 [cmd]를 전체 혹은 지정한 range 사이의 모든 라인에 중에서 패턴이 일치하는 라인에 대해 실행한다. 의외로 놓치고 활용을 많이 안하는 명령인데, 반복적인 편집 뿐만 아니라 조금만 연습하면 강력한 편집 기능을 구현할 수 있다. 또한 일상적으로는 잘 쓰이지 않는 일부 명령들을 조합하여 유용하게 사용하게 되기 때문에 편집 명령에 대해서도 공부할 수 있는 좋은 출발점이 된다.

더 보기 »:global 명령

모평균의 추정

중심극한 정리에 따르면 모집단의 데이터의 분포에 무관하게, 표본의 크기가 충분히 크다면 표본 평균의 분포는 그 평균의 모평균과 같고, 분산이 모분산을 표본수로 나눈 값인 정규분포에 가까워진다. 이 말은 어떤 집단에서 표본을 추출하여 얻는 표본 평균이 모평균의 근처에 있을 가능성이 높다는 의미이다. 그리고 표본 평균의 분산은 모분산을 표본수로 나눈 값이므로 표본의 수가 충분히 크다면 더더욱 표본 평균은 모평균과 가까워질 것이다. 따라서 표본 조사를 통해 얻은 표본 평균을 통해 모평균을 추정하는 것은 너무 터무니 없는 것은 아닌 것이다. 그렇다면 표본 조사를 통한 모평균의 추정은 어떻게 할 수 있을까?

더 보기 »모평균의 추정

Python 101 : 맵, 필터와 반복문

지난 글에서는 리스트 및 그와 비슷한 집합 형태의 자료형을 살펴보면서 “반복 가능”이라는 개념에 대해서 소개했다. 반복 가능하다는 특성은 꼭 리스트가 아니어도 여러 개의 값을 포함하는 집합/모임(collection)의 성질을 갖는 다양한 자료형에서 나타나는 성질이며, 이러한 특성을 갖는 객체들은 그 내부 구현에 상관없이 for 루프나 comprehension 축약 문법에 적용될 수 있다.

더 보기 »Python 101 : 맵, 필터와 반복문