조건부 확률 2
지난 글에서 우리는 조건부 확률과 관련된 문제가 일상에서 잘못 받아들여지거나 알려지는 경우의 문제에 대해 살펴보고 기본적인 계산 방법에 대해서도 살펴보았습니다. 그리고 조건부 확률에서 유용하면서도 중요한 공식 중 하나인 베이즈 정리에 대해서도 간략히 살펴보았습니다.
유병률 문제
“진단 검사에서 양성일 때 실제 환자일 확률”은 진단 검사가 양성이라는 사건이 발생하였을 때, 실제 환자일 확률을 구하는 것입니다. 진단 검사의 결과는 양성 아니면 음성이고, 발병 여부 역시 환자와 미발병자로 나눌 수 있습니다. 따라서 전체의 인구 인구 샘플은 크게 네 가지로 구분될 수 있습니다.
- 양성이면서 환자
- 음성이면서 환자 (위음성)
- 양성이면서 건강한 사람 (위양성)
- 음성이면서 건강한 사람
해당 질병과 그 검사 결과와 관련해서는 위 네 가지 경우 외의 다른 경우의 수는 없습니다. 그런데 검사 결과에서 양성이 나왔다면, 이 사건으로 인해 2, 4번의 경우는 발생할 수가 없게 됩니다. 그러니까 전체 확률 공간에서 2, 4에 해당하는 확률들은 이미 일어난 사건으로 인해 사라지게 됩니다.
여기까지 읽어보면 단순하면서도 당연한 문제 같습니다. 그리고 조건부 확률을 구하는 공식을 다시 한 번 살펴 봅시다.
라는 당연한 규칙을 이용하면, 어떤 조건부확률로부터 반대 조건의 조건부확률을 계산할 수 있게 됩니다. 이 공식은 단순한 분수식이라 계산 자체는 간단해 보이지만, 그 의미는 조건부 확률 문제에서 아주 중요한 동시에 그 자체로 대단히 유용하기도 합니다.
참고로 베이즈 정리가 들어가는 대부분의 문제들은 분모가 되는 를 알아내야 하는 경우가 많습니다. 그리고 는 , (A’는 A의 여사건. . 보통 로 쓰지만 귀찮으니..)를 통해서 얻게 되는 경우가 많습니다.
- 가 의 여사건일 때,
이전 글에서의 검사가 양성일 때 실제 환자일 확률 역시 베이즈 정리로도 계산할 수 있습니다. 앞 문제의 가정을 수식으로 표현해보겠습니다.
- 유병율 (1천명 중 한 명):
- 환자가 아닐 확률 :
- 민감도 : (민감도는 실제 감영자를 양성으로 진단하는 확률입니다.)
- 특이도 : (특이도는 비감염자를 음성을 진단하는 확률입니다.)
- 비감염자를 양성으로 진단한다면 이는 특이도에서의 예외상황입니다. (분모가 비감염자이므로) 즉,
이 때 우리가 알아야 할 것은 양성일 때 실제 환자일 확률, 입니다.
문제의 가정에서 , 는 알려져 있으므로, 를 계산하면 됩니다.
수식으로 쓰니 복잡해 보이는데, 이제 이 식에서 모든 확률은 가정에 나왔던 값들입니다. 계산기를 두르려 봅니다.
지난 글에서 샘플 인구에 통계를 대입하여 확률을 구했던 것과 큰 차이가 없습니다. 사실 이 패턴은 다른 질병과 진단 검사의 결과에도 똑같이 적용될 수 있습니다.
우리나라에서 코로나가 한창 유행하던 시기의 유병률은 무려 20%에 달한다고 합니다. 그리고 PCR 검사는 다음과 같은 정확도를 가지고 있는 것으로 알려져 있습니다.
- 민감도 : 77~97%, 대략 85%
- 특이도 : 95%이상. 대략 97%
- 위양성이 나올 확률 : 3%
간단하게 97%의 확률로 양성이 됨을 알 수 있습니다. 이는 미지의 질병 A와 마찬가지로 유병률에 큰 영향을 받습니다.
농구 클럽 문제
다른 예제도 한 번 살펴보겠습니다.
두 농구클럼 A, B가 있습니다. A 소속 선수들은 자유투 성공률이 80%이고, B소속 선수들은 자유투 성공률이 60%입니다. 운동장에 A그룹 선수 10명과 B그룹 선수 5명이 모여 함께 연습을 하고 있습니다. 각 선수는 5번씩 공을 던지고 있습니다. 이 때 한 선수가 5번 중 3번의 자유투를 성공했을 때, 이 선수가 그룹 B에 속해있을 확률을 구해봅시다.
사실 이 문제를 그냥 듣기만 하면 너무 이상한 문제 같기도 합니다. 아니 농구 연습하는 사람이 5번 던져서 3번 넣는 거랑, 그 사람이 속한 농구클럽이 어딘지랑 무슨 상관이라고…
일단 문제에서 제시하는 이벤트와 확률들을 정리해봅시다.
- 이 선수가 A 클럽에 속하는 사건을 A라 하면, 그 확률은 인원 구성을 따르므로 로 계산됩니다.
- B 클럽에 속하는 사건을 B라 합니다. 사건 B는 A의 여사건입니다.
- 선수가 5개의 자유투 중 3개를 성공하는 사건을 E라고 합니다.
- 이 문제는 를 구하는 문제입니다.
이므로 이 값을 계산해야 하고, 계산에 필요한 확률을 이 과정에서 구해야 합니다.
- 입니다.
- 입니다. 는 “A 소속 선수가 5회 중 3회의 자유투를 성공할 확률”을 말합니다.
- 같은 방식으로 도 구할 수 있습니다.
- , 를 알면, 도 구할 수 있습니다.
독립시행
그런데 자유투 성공 확률은 어떻게 계산해야 할까요? 각각의 자유투 시도의 결과는 다음/이전 결과에 영향을 미치지 않습니다. 독립된 사건을 N회 시행했을 때 특정 횟수만큼 성공하는 확률은 독립시행의 확률로 계산합니다.
독립시행의 확률은 성공하는 사건이 r번, 실패하는 사건이 n-r 번으로 총 n번 일어난다고 하면, 다음과 같이 계산됩니다.
이 두 확률은 선수가 어느 클럽에 소속되었는지가 결정된 후의 자유투 성공율로 조건부 확률입니다. 따라서 단순히 합을 구하여 를 계산할 수 없습니다. 따라서 앞에서 제시한 식에 따라, 각각의 조건부 확률을 두 사건이 모두 일어날 확률로 변환해야 합니다.
이제 를 계산할 수 있습니다.
절반이 조금 안되는 확률입니다. A그룹 선수들은 인원이 더 많지만, 실제로는 잘던지는 선수가 많아서 5번 중 3번보다는, 5번중 4번을 던지는 경우가 더 많을 것입니다. 3/5회의 성공률이면 B그룹일 가능성이 상대적으로 더 높기 때문에 B 선수가 더 적어도 확률은 비슷해집니다.
또 다른 예제 - 몬티홀
이번에는 조건부 확률 문제 중에서는 가장 잘 알려진 논란(?)중 하나인 몬티홀 문제를 조건부 확률로 다뤄보도록 하겠습니다.
어떤 퀴즈쇼의 우승자에게는 가혹한(?) 상품 추첨 기회가 주어집니다. 3개의 문이 있고 이 중 하나의 문에만 상품이 있습니다. 당연히 우승자는 어느 문 뒤에 상품이 있는지는 모릅니다. 그러나 진행자는 알고 있습니다. 우승자가 문을 하나 고르면, 진행자는 상품이 없는 문을 하나 열어서 스포츠카가 아닌 염소가 있는 것을 보여줍니다. 그러면 이 때, 우승자는 문을 바꾸는 것이 유리할까요?
이 문제는 문의 답을 구하는 과정이 특별히 어렵다기 보다는, 답을 받아들이지 못하는 사람이 너무 많아서 유명해진 문제입니다. 답을 먼저 말하자면, 바꾸기 전의 문의 당첨확률은 1/3, 바꾼 문의 당첨확률은 1/2이므로 문을 바꾸는 것이 확률적으로 유리합니다. 이 결론에 대해서 동의하시나요?
3개의 문을 1, 2, 3번 문이라고 하고, 우승자는 1번 문을 선택, 사회자는 3번문을 열었다고 가정하겠습니다. 사실 문이 3개이기 때문에 우승자가 몇 번 문 앞에 섰고, 사회자가 남은 두 문 중 하나를 열든 모든 경우의 계산결과는 동일합니다.
사건과 사전 확률
- S=1, S=2, S=3은 각각 1번, 2번, 3번 문 뒤에 상품이 있는 사건입니다.
- E는 진행자가 3번 문을 열어주는 사건입니다.
- S=1, S=2, S=3 사건은 모두 같은 확률로 1/3 (0.3333…) 일어날 수 있습니다.
- E는 사실 상품이 어느 문 뒤에 있는지에 따라 달라집니다.
예를 들어 3번 문 뒤에 상품이 있다면 진행자는 이 문을 열 수 없습니다. 즉, 입니다. 그러면 각각의 S의 경우에 대해 을 각각 계산해봅시다.
- : 판매자는 두 개의 문을 모두 선택할 수 있습니다. 따라서 1/2 입니다.
- : 판매자는 3번 문만 선택할 수 있습니다. 따라서 1입니다.
- : 판매자는 3번 문을 선택할 수 없습니다. 따라서 0 입니다.
- 으로 계산됩니다.
는 3번 문을 열었는데 1번이 당첨될 확률입니다. 도 계산하고 둘을 비교해봅시다.
가 당첨될 확률이 2배나 높습니다.