조건부 확률 2

몇 가지 조건부 확률의 예제 계산

지난 글에서 우리는 조건부 확률과 관련된 문제가 일상에서 잘못 받아들여지거나 알려지는 경우의 문제에 대해 살펴보고 기본적인 계산 방법에 대해서도 살펴보았습니다. 그리고 조건부 확률에서 유용하면서도 중요한 공식 중 하나인 베이즈 정리에 대해서도 간략히 살펴보았습니다.

검사에서 양성일 때 실제 환자일 확률

"진단 검사에서 양성일 때 실제 환자일 확률"은 진단 검사가 양성이라는 사건이 발생하였을 때, 실제 환자일 확률을 구하는 것입니다. 진단 검사의 결과는 양성 아니면 음성이고, 발병 여부 역시 환자와 미발병자로 나눌 수 있습니다. 따라서 전체의 인구 인구 샘플은 크게 네 가지로 구분될 수 있습니다.

  1. 양성이면서 환자
  2. 음성이면서 환자 (위음성)
  3. 양성이면서 건강한 사람 (위양성)
  4. 음성이면서 건강한 사람

해당 질병과 그 검사 결과와 관련해서는 위 네 가지 경우 외의 다른 경우의 수는 없습니다. 그런데 검사 결과에서 양성이 나왔다면, 이 사건으로 인해 2, 4번의 경우는 발생할 수가 없게 됩니다. 그러니까 전체 확률 공간에서 2, 4에 해당하는 확률들은 이미 일어난 사건으로 인해 사라지게 됩니다.

여기까지 읽어보면 단순하면서도 당연한 문제 같습니다. 그리고 조건부 확률을 구하는 공식을 다시 한 번 살펴 봅시다.

  • P(B|A) = P(B∩A) / P(A)
  • so, P(B∩A) = P(B|A) * P(A)
  • P(A|B) = P(A∩B) / P(B) = P(B|A) * P(A) / P(B)

A∩B = B∩A라는 당연한 규칙을 이용하면, 어떤 조건부확률로부터 반대 조건의 조건부확률을 계산할 수 있게 되는 것입니다. 공식은 단순한 분수식이라 너무 쉽지만 실질적인 확률 문제에서 베이즈 정리는 대단히 유용합니다.

참고로 베이즈 정리가 들어가는 대부분의 문제들은 분모가 되는 P(B)를 알아내야 하는 경우가 많습니다. 그리고 P(B)는 P(A), P(A') (A'는 A의 여사건. P(A') = 1 - P(A). 보통 c를 위첨자로 쓰지만 귀찮...)를 통해서 얻게 되는 경우가 많습니다.

  • A'가 A의 여사건일 때, P(A∩B) + P(A'∩B) = P(B)

이전 글에서의 검사가 양성일 때 실제 환자일 확률 역시 베이즈 정리로도 계산할 수 있습니다. 앞 문제의 가정을 수식으로 표현해보겠습니다.

  • 유병율 (1천명 중 한 명): P(D) = 0.001
  • 환자가 아닐 확률 : P(D') = 1 - P(D) = 0.999
  • 민감도 : P(T+|D) = 0.99 # 실제 환자를 양성으로 진단할 확률
  • 특이도 : P(T-|D') = 0.99 # 정상인을 음성으로 진단할 확률
    • 정상일은 양성으로 진단할 확률은 특이도와 관련있습니다.
      P(T-|D') = 1 - P(T-|D')

이 때 우리가 알아야 할 것은 양성일 때 실제 환자일 확률, P(D|T+) 입니다.

  • P(D|T+) = P(T+|D) * P(D) / P(T+)

가정에서 P(T+|D), P(D)는 알려져 있으므로, P(T+)만 구하면 됩니다.

  • P(T+) = P(T+∩D) + P(T+∩D')
    = P(T+|D) * P(D) + P(T+|D') * P(D')
    = P(T+|D) * P(D) + (1 - P(T-|D')) * (1 - P(D'))

수식으로 쓰니 복잡해 보이는데, 이제 이 식에서 모든 확률은 가정에 나왔던 값들입니다. 계산기를 두르려 봅니다.

  • P(D|T+) = 0.99 * 0.001 / 0.0110 = 0.090

지난 글에서 샘플 인구에 통계를 대입하여 확률을 구했던 것과 큰 차이가 없습니다. 사실 이 패턴은 다른 질병과 진단 검사의 결과에도 똑같이 적용될 수 있습니다.

우리나라에서 코로나가 한창 유행하던 시기의 유병률은 무려 20%에 달한다고 합니다. 그리고 PCR 검사는 다음과 같은 정확도를 가지고 있는 것으로 알려져 있습니다.

  • 민감도 : 77~97%, 대략 85%
  • 특이도 : 95%이상. 대략 97%
    • 위양성이 나올 확률 : 3%
  • (0.85 * 0.2) / (0.85 * 0.2 + (1 - 0.97) * (1 - 0.85) = 0.9742

간단하게 97%의 확률로 양성이 됨을 알 수 있습니다. 이는 미지의 질병 A와 마찬가지로 유병률에 큰 영향을 받습니다.

다른 예제도 한 번 살펴보겠습니다.

두 농구클럼 A, B가 있습니다. A 소속 선수들은 자유투 성공률이 80%이고, B소속 선수들은 자유투 성공률이 60%입니다. 운동장에 A그룹 선수 10명과 B그룹 선수 5명이 모여 함께 연습을 하고 있습니다. 각 선수는 5번씩 공을 던지고 있습니다. 이 때 한 선수가 5번 중 3번의 자유투를 성공했을 때, 이 선수가 그룹 B에 속해있을 확률을 구해봅시다.

사실 이 문제를 그냥 듣기만 하면 너무 이상한 문제 같기도 합니다. 아니 농구 연습하는 사람이 5번 던져서 3번 넣는 거랑, 그 사람이 속한 농구클럽이 어딘지랑 무슨 상관이라고...

일단 문제에서 제시하는 이벤트와 확률들을 정리해봅시다.

  • 이 선수가 A 클럽에 속하는 사건을 A라 하면, 그 확률은 인원 구성을 따르므로 P(A) = 5 / 15 = 0.6667로 계산됩니다.
  • B 클럽에 속하는 사건을 B라 합니다. 사건 B는 A의 여사건입니다. 원래 Ac라고 쓰지만 첨자를 쓰기가 귀찮으므로 A'라고 하겠습니다. P(B) = P(A') = 1 / 3 = 0.3333
  • 선수가 5개의 자유투 중 3개를 성공하는 사건을 E라고 합니다.
  • 이 문제는 P(B|E)를 구하는 문제입니다.

P(B|E) = P(B∩E) / P(E) 계산해야 합니다.

  1. P(E) = P(E∩A) + P(E∩A') 입니다.
  2. P(E∩A) = P(E|A) * P(A) 입니다. P(E|A)는 "A 소속 선수가 5회 중 3회의 자유투를 성공할 확률"을 말합니다.
  3. 같은 방식으로 P(E∩B)도 구할 수 있습니다.
  4. P(E), P(E∩B) 를 알면, P(B|E)도 구할 수 있습니다.

자유투 성공률 80%인 선수가 자유투 5번 중에 세 번을 성공할 확률을 계산해보겠습니다. 5번의 자유투에서 각각의 자유투는 다른 시도에는 영향을 주지 않으므로 독립시행입니다. 독립시행의 확률은 성공하는 사건이 r번, 실패하는 사건이 n-r 번으로 총 n번 일어난다고 하면, 다음과 같이 계산됩니다.

p^r * (1-p)^(n-r) * nCr
  • P(E|A) = 0.8 * 0.8 * 0.8 * 0.2 * 0.2 * 10 = 0.2048
  • P(E|B) = 0.6 * 0.6 * 0.6 * 0.4 * 0.4 * 10 = 0.3456

이 두 확률은 선수가 어느 클럽에 소속되었는지가 결정된 후의 자유투 성공율로 조건부 확률입니다. 따라서 단순히 합을 구하여 P(E)를 계산할 수 없습니다. 따라서 앞에서 제시한 식에 따라, 각각의 조건부 확률을 두 사건이 모두 일어날 확률로 변환해야 합니다.

  • P(E∩A) = P(E|A) * P(A) = 0.2048 * 0.6667 = 0.1365
  • P(E∩B) = P(E|B) * P(B) = 0.3456 * 0.3333 = 0.1152
  • P(E) = P(E∩A) + P(E∩B) = 0.2517

이제 P(B|E)를 계산할 수 있습니다.

  • P(B|E) = P(B∩E) / P(E) = 0.1152 / 0.2517

절반이 조금 안되는 확률입니다. A그룹 선수들은 인원이 더 많지만, 실제로는 잘던지는 선수가 많아서 5번 중 3번보다는, 5번중 4번을 던지는 경우가 더 많을 것입니다. 3/5회의 성공률이면 B그룹일 가능성이 상대적으로 더 높기 때문에 B 선수가 더 적어도 확률은 비슷해집니다.

또 다른 예제

이번에는 조건부 확률 문제 중에서는 가장 잘 알려진 퍼즐 중 하나인 몬티홀 문제를 조건부 확률로 다뤄보도록 하겠습니다.

어떤 퀴즈쇼의 우승자에게는 가혹한(?) 상품 추첨 기회가 주어집니다. 3개의 문이 있고 이 중 하나의 문에만 상품이 있습니다. 당연히 우승자는 어느 문 뒤에 상품이 있는지는 모릅니다. 그러나 진행자는 알고 있습니다. 우승자가 문을 하나 고르면, 진행자는 상품이 없는 문을 하나 열어서 스포츠카가 아닌 염소가 있는 것을 보여줍니다. 그러면 이 때, 우승자는 문을 바꾸는 것이 유리할까요?

이렇게 생각할 수 있습니다. (아니 사실 이 말을 하면 안되는데,) 문이 하나 열린 시점에 두 문 중 하나의 문이 당첨되는 문입니다. 이 말은 두 문의 확률이 50%라는 것이죠. 따라서 우승자는 문을 바꾸든 바꾸지 않든 특별히 유리해질 것이 없다고 말이죠.

이러한 착각으로 사실 많은 사람들이 이 문제 때문에 고통받았습니다. 이 착각을 극복하려는 시도는 많이 있습니다만, 오늘은 그냥 계산으로는 어떻게 풀이하는지만 살펴보겠습니다.

3개의 문을 1, 2, 3번 문이라고 하고, 우승자는 1번 문을 선택, 사회자는 3번문을 열었다고 가정하겠습니다. 사실 문이 3개이기 때문에 우승자가 몇 번 문 앞에 섰고, 사회자가 남은 두 문 중 하나를 열든 모든 경우의 계산결과는 동일합니다.

사건과 사전 확률

  1. S=1, S=2, S=3은 각각 1번, 2번, 3번 문 뒤에 상품이 있는 사건입니다.
  2. E는 진행자가 3번 문을 열어주는 사건입니다.
  3. S=1, S=2, S=3 사건은 모두 같은 확률로 1/3 (0.3333...) 일어날 수 있습니다.
  4. E는 사실 상품이 어느 문 뒤에 있는지에 따라 달라집니다. 예를 들어 3번 문 뒤에 상품이 있다면 진행자는 이 문을 열 수 없습니다. 즉, P(E|S=3) = 0 입니다. 그러면 각각의 S의 경우에 대해 P(E|S=1,2,3)을 각각 계산해봅시다.
    1. P(E|S=1) : 판매자는 두 개의 문을 모두 선택할 수 있습니다. 따라서 1/2 입니다.
    2. P(E|S=2) : 판매자는 3번 문만 선택할 수 있습니다. 따라서 1입니다.
    3. P(E|S=3) : 판매자는 3번 문을 선택할 수 없습니다. 따라서 0 입니다.
  5. P(E) = P(E|S=1) * P(S=1) + ... 으로 계산됩니다.
    1. P(E) = 1/2* 1/3 + 1 * 1/3 + 0 * 1/3 = 1/2
  6. P(S=1|E) 는 3번 문을 열었는데 1번이 당첨될 확률입니다. P(S=2|E)도 계산하고 둘을 비교해봅시다.
    1. P(S=1|E) = P(E|S=1) × P(S=1) ÷ P(E) = 1/2 × 1/3 ÷ 1/2 = 1/3
    2. P(S=2|E) = P(E|S=2) × P(S=2) ÷ P(E) = 1 × 1/3 ÷ 1/2 = 2/3

P(S=2|E)가 당첨될 확률이 2배나 높습니다. 옮기는 것이 훨씬 유리하죠.