조건부 확률 1
조건부 확률을 계산하는 방법을 알아봅시다.
교통 사고 사망자의 40%가 안전벨트 미착용자라는 기사가 있습니다. 이 기사를 보면 "어? 그럼 사망자의 60%가 안전벨트 착용자니까, 안전벨트를 메는 게 더 위험한 거 아니야?"라고 생각할 수도 있을 것 같습니다.
물론 이것은 잘못된 주장이고, 실제로 우리는 '안전띠는 생명띠'와 같은 캠페인으로 안전벨트가 교통사고 사망률을 줄인다는 교육을 받았기 때문이기에 이러한 주장이 상식에 어긋난다는 것을 직관적으로 알 수 있습니다. 그러면 이 주장은 왜 잘못된 것인지 설명할 수 있을까요?
조건부 확률
두 사건 A, B가 있을 때, B가 일어났을 때 A가 일어날 확률을 '사건 B에 대한 A의 조건부 확률'이라고 합니다. 조건부 확률은
교통사고를 당해 사망하는 사건을 A, 안전벨트를 착용하지 않는 사건을 B라고 할 때, "교통사고 사망자 중 40%가 안전벨트를 착용하지 않았다"는 말은, 교통 사고를 당해 사망하는 사건에 대한 안전벨트를 착용하지 않은 조건부 확률이 0.4라는 의미입니다. 즉,
- P(안전벨트미착용|교통사고사망) = 0.4
하지만, 안전벨트 착용여부가 교통사고 사망률과 어떻게 관련되어 있는지를 알고 싶다면, "안전벨트착용에 대한 교통사고사망 확률"을 따져보아야 합니다. 이제 올바르게 이 확률을 계산해봅시다.
우리나라의 도로 사망사고 관련하여 실제로 구글링을 통해 찾을 수 있는 값들을 알아보겠습니다.
- 우리나라의 도로교통사고 사망률은 인구 10만명당 6.0명 수준입니다.
- 그리고 안전띠 착용율은 84.8%라고 합니다.
그러면 우리나라 운전자 100만명이 있을 때, 이 비율에 따라 다음과 같이 이 집단을 세분화할 수 있습니다.
- 100만명 중 84만 8천명은 안전띠를 착용하며, 15만 2천명은 안전띠를 착용하지 않습니다.
- 100만명 중 60명이 교통사고로 사망합니다.
- 사망자 60명 중 40%인 24명은 안전띠를 착용하지 않았습니다.
- 사망자 60명 중 60%인 36명은 안전띠를 착용했습니다.
이로부터 안전띠를 착용했을 때의 사망률과 안전띠를 착용하지 않았을 때의 사망률은 다음과 같이 계산할 수 있습니다.
- 안전띠 착용시 사망률 = 36 / 848,000 = 0.00004245 (약 23,555명 중 1명)
- 안전띠를 사용하지 않은 경우 사망률 = 24 / 152,000 = 0.000157689 (약 6,333명 당 1명)
실제로 어떤 습관이 더 위험한지를 판단하기 위해서는 "안전벨트를 착용한 경우의 사망 확률"이 "안전벨트를 착용하지 않았을 때의 사망확률"과 비교되어야 하며, 위와 같이 계산해보면 안전벨트를 착용하지 않은 경우의 교통사고 사망률이, 안전벨트를 착용했을 때 보다 약 4배 가량 높게 나오는 것을 확인할 수 있습니다.
통계적 사실을 일상의 언어로 옮기는 과정에서 '모호함'이 추가되기에 그것이 사실이 아닌 진술이 되는 경우가 많습니다. 특히 조건부 확률은 그 자체의 성격이 우리의 상식이나 직관에 반하는 경우가 많아서, 바르게 표현한다 하더라도 쉽게 받아들이지 못하거나 오해하는 경우가 많습니다.
- 조건부 확률 [P(A|B)]을 두 사건이 동시에 일어나는 확률 [P(A∩B)]와 혼동하는 경우가 많습니다. (이 문장을 읽으면서도 두 개가 어떻게 다른지 생각해봅시다.)
- 이 문제의 경우에서처럼 P(A|B)를 P(B|A)로 혼동하거나, 두 가지가 같은 확률이라고 생각하는 경우도 많습니다.
결론적으로 사망자 중에서 60%가 안전띠를 매지 않았다는 사실은 어떻게 해석해야 할까요? 이것은 실제로 안전벨트가 위험하다는 것을 알려주는 지표가 아닙니다. 이는 단순히 대다수의 운전자가 안전벨트를 착용한다는 것을 확인시켜주는 용도일 뿐입니다. 도로에 다니는 차의 대부분에 안전벨트를 착용한 사람이 타고 있으니, 교통사고를 당한 사람 중에서도 당연히 안전벨트를 착용한 사람이 많을 것입니다. 따라서 더 많은 비율의 운전자가 안전벨트를 착용한다면, "사망자 중에서 안전벨트를 착용하지 않은 운전자의 비율"은 더욱 내려갈 것입니다.
처음 뉴스 기사를 작성한 기자의 의도를 지금에야 알 수는 없겠지만, 좀 더 올바르게 사실을 전달하려 했다면 "안전벨트 미착용 시 도로교통사고 사망율은 4배 높아" 정도가 되었어야 하지 않을까요?
조건부 확률
사건 A와 B가 있고, 각각의 사건이 일어날 확률을 P(A), P(B)라고 할 때, 사건 A가 일어났을 때 사건 B가 일어날 확률을 P(B|A)로 표기하고, 이를 '사건 A에 대한 사건 B의 조건부 확률'이라고 말합니다.
조건부 확률은 단순히 사건 A와 B가 동시에 일어날 확률인 P(A∩B)와는 다르며, P(A|B)와 P(B|A)도 서로 같지 않은 경우가 많습니다. 두 사건이 동시에 일어날 확률은 전체 사건의 가능성 중에서 말 그대로 두 사건이 동시에 일어날 확률입니다. 그러나 조건부 확률에서는 하나의 사건이 이미 일어난 상황에서 나머지 한 사건이 일어날 확률을 말합니다. 즉 어떤 사건 하나가 이미 일어나면서, 전체 확률 공간에서는 그 사건이 일어나지 않을 확률이 0으로 변경됩니다. 따라서 그와 관련된 다른 사건들의 확률도 업데이트가 발생하는데, 조건부 확률은 이 때 아직 일어나지 않은 사건의 '갱신된' 확률을 말합니다.
그러나 전술한대로 일상의 언어에서는 이러한 구분이 명확하지 않기 때문에 조건부 확률은 받아들이기 힘든 경우가 많습니다. 아래는 조건부 확률과 관련하여 가장 잘 알려진 문제 중 하나입니다.
어떤 질병 A는 1000명 중 1명에게 발병한다고 알려져 있습니다. 제약회사 B는 질병 A의 발병 여부를 99%의 정확도로 알 수 있는 진단키트를 개발했습니다. 인구 60만명의 도시에 살고 있는 철수는 병원에서 이 진단키트로 검사했을 때, 양성 반응이 나왔습니다. 철수가 A에 감염되었을 확률은 얼마일까요?
진단키트가 99%의 정확도로 양성이라고 말했으니, 철수는 99%의 확률로 양성일까요? 99%의 정확도는 실제 환자의 99%에 대해 양성으로 진단하는 것 외에, 환자가 아닌 사람에 대해서도 99%로 음성으로 진단한다는 의미입니다.
우리는 문제를 통해 알고 있는 두 가지 확률과 도시의 인구를 통해서, 이 도시에 살고 있는 60만명의 인구에 대해서 다음과 같은 가정을 할 수 있습니다.
- 60만의 인구 중에서 600명은 A에 감염되었습니다. 599,400 명은 감염되지 않았습니다.
- 감염된 600명 중에서 1%인 6명은 진단키트에서 음성이 나옵니다. (정확도가 99% 이므로 위음성이 나올 가능성이 1%입니다.)
- 감염된 600명 중에서 594명은 진단키트에서 양성이 나옵니다.
- 감염되지 않은 599,400명 중에서도 5,994명은 진단키트에서 양성(위양성)이 나옵니다. 따라서 60만명 중 양성 결과가 나오는 사람은 6598명입니다.
따라서 이미 알고 있는 정보를 기반으로 60만명 모두에게 검사를 한다고 가정하면, 양성으로 나오는 사람은 실제 감염여부와 무관하게 6598명입니다. 이 중에서 실제로 감염된 사람은 594명입니다. 따라서 양성 결과가 나온 사람 중에서 실제로 감염된 사람의 비율은 9% 가량입니다. 즉 철수가 양성 결과지를 받았을 때 실제로 감염되었을 확률은 9%에 불과합니다. 언뜻 생각했을 때 99%의 정확도를 가진 검사에서 양성이 나왔는데 실제 감염되었을 확률이 9%밖에 되지 않는다는 것이 이해가 가지 않습니다만, 이는 "안전벨트를 착용한 사람이 워낙 많은" 상황과 비슷합니다. 1000명 중 1명이 걸리는 병이기 때문에, 병에 걸리지 않은 사람이 훨씬 더 많고, 우리의 철수는 여전히 병에 걸리지 않은 사람 중의 한 명일 확률이 더 큰 것이죠.
즉 도시의 인구가 많고 유병률이 낮기 때문에, 감염되지 않았음에도 위음성이 나오는 표본의 수가 많기 때문에 이러한 차이가 발생합니다. 이러한 통계상의 문제 때문에, 실제로 병원에서도 검사 한 가지만을 통해서 병을 진단하지는 않습니다. 그렇다면 진단키트 등을 신뢰할 수 없는 것일까요? 코로나가 유행하던 시절에 PCR 검사가 양성이었다고해서 내가 실제 감염되지 않았던 것은 아닐 수 있지 않을까요?
코로나가 대유행하던 시점의 유병률은 20%정도로 잡을 수 있다고 합니다. PCR 검사의 민감도는 70-98%, 특이도는 95%이상이라고 알려져 있습니다. (민감도는 감염자를 양성으로 진단할 확률이고, 특이도는 비감염자를 음성으로 진단할 확률입니다.) 민감도를 85%, 특이도를 98%로 가정하면 인구 10,000명의 샘플에 대해서 다음과 같은 자료를 만들 수 있습니다.
감염여부 | 양성 | 음성 | 소계 |
---|---|---|---|
정상 | 160 | 7840 | 8000 |
감염 | 1700 | 300 | 2000 |
따라서 양성인 경우의 실제 감염 확률은 91%가 됩니다. 즉 진단 결과의 정확도는 결국 민감도/특이도/유병률 세 가지 요인의 결합으로 계산됩니다.
조건부 확률의 계산과 베이즈 정리
조건부 확률은 하나의 사건이 이미 일어난 경우의 다른 사건이 일어날 확률입니다. 즉 결과적으로는 두 사건이 모두 일어났지만, 확률의 분모는 이미 한 사건이 일어났을 때의 확률입니다.
이미 일어난 사건을 A, 아직 일어나지 않은 사건을 B라 할 때 A에 대한 B의 조건부 확률은 다음과 같이 계산합니다.
- P(B|A) = P(A∩B) / P(A)
이는 분수식이기 때문에, P(A|B)로 변경한 확률은 다음과 같이 계산할 수 있습니다. 즉 가정을 변경하는 것이죠.
- P(A|B) = P(A∩B) / P(B) = P(B|A) * P(A) / P(B)
이렇게 가정을 변경한 확률을 계산하는 공식을 베이즈 정리하고 합니다. 분수식을 사용한 간단한 공식이지만, 확률 계산에서는 아주 유용하게 사용됩니다.