Wireframe

조건부 확률

솔직히 고백하자면 개인적으로도 이 조건부 확률에 대해서 제대로 이해하지 못했었다. 조건부 확률 문제를 단순히 공식을 사용해서 푸는 것과 어느 정도 이해하는 것은 전혀 다른 문제이기 때문이다. 조건부 확률은 단순히 결합가능한 두 사건 사이의 관계의 확률이라기 보다는, 각각의 사건의 확률의 관계를 수식으로 다룬다는 것에 있다.

조건부 확률은 어떤 사건이 일어났을 때의 다른 사건이 일어나는 확률이다. (여기까지는 ‘확률’을 제외하면 일상의 언어로 된 문장이기 때문에 어려울 것이 없다.) 두 사건 A, B가 있고 이 각각의 사건이 일어날 확률을 P(A), P(B) 라고 했을 때, 사건 B가 일어났을 때 사건 A가 일어났을 확률을 ‘사건 B에 대한 사건 A의 조건부 확률’이라 하고 P(A|B) 라고 표기한다.

조건부 확률인 P(A|B)는 사건 B의 영향을 받아 변할 수 있고, 또 일반적으로 P(A|B)와 P(B|A)는 같지 않다.

계산식

B에 대한 A의 조건부 확률은 다음의 식으로 계산한다.

반대로 A에 대한 B의 조건부 확률은 위 식에서 A, B를 바꾼 것으로 다음과 같다.

이 때, P(A∩B) = P(A) * P(B|A) 이므로, 두 조건부 확률에는 다음과 같은 관계가 성립한다.

전체 사건의 집합 S와 그 속에 두 사건 A, B가 일어나는 경우들이 있다고 할 때, 전체 사건의 집합은 다음 4개의 구역으로 나뉘어진다.

  1. 사건 A, B 중 어느 것도 일어나지 않는 경우.
  2. 사건 A는 일어났지만 사건 B는 일어나지 않은 경우
  3. 사건 B만 일어나고 사건 A는 일어나지 않은 경우
  4. 사건 A와 B가 모두 일어난 경우

이 확률공간에서 사건 A가 일어날 확률은 확률 공간 전체에서 A가 일어나는 경우의 확률의 비율이 된다. 따라서 2번과 4번에 해당하는 경우의 수의 합을 전체 경우의 수로 나눈 것인 것이다.

조건부 확률에서 “사건 A가 일어났을 때 사건 B가 일어날 확률”을 말하기 때문에 우리는 주로 사건 A와 B가 동시에 일어난 확률 P(A∩B)에 집중하게 되는데, 두 사건이 동시에 일어난 확률과 조건부 확률은 다르다. P(A∩B) 는 전체 확률 공간 내에서 두 사건이 모두 일어났을 때의 확률의 비율이지만, 조건부 확률 P(A|B)에서는 전체 확률 공간이 n(B)가 되기 때문에 분모 자체가 달라지게 된다.

간단한 예로 예전 수능에 나왔던 문제 하나를 살펴보자.

예제 1

어느 역사 동아리 1, 2학년 학생 32명을 대상으로 박물관 A와 박물관 B에 대한 선호도를 조사하였다. 이 조사에 참여한 학생은 박물관 A와 박물관 B 중 하나만을 선택하였고, 학 학생이 선택한 박물관별 인원수는 다음과 같다.

구분1학년2학년합계
박물관 A91524
박물관 B628
합계151732

이 조사에 참여한 역사 동아리 학생 중에서 임의로 선택한 1명이 박물관 A를 선택한 학생일 때, 이 학생이 1학년일 확률은?

따라서 P(1학년 | 박물관 A) = P(1학년 ∩ 박물관 A) / P(박물관 A) 가 되어 9 / 24 = 3/8 이 된다.

대부분의 조건부 확률 문제는 이러한 표를 만들어서 구분하면 공식에 대입만 하면 풀 수 있다. 실제로는 공식 그대로 대입하기 보다는 전체 박물관 A 의 원소수에 대한 1학년이 A를 선택한 비중을 구하는 것과 같은 것이다.

그럼에도 공식을 이해하는 것은 중요하다. 조금만 문제가 꼬이면 상당히 곤란해지기 때문이다. 다음 문제를 보자.

예제 2

두 농구클럽 A, B 가 있다. A의 선수들은 자유투 성공율이 80%이고, B의 선수들은 50%이다. A 그룹의 선수 10명과 B 그룹 선수 5명이 함께 연습을 하며 각자 자유투를 5번씩 던지고 있다. 어떤 선수가 5개 중 3개를 성공 시켰을 때, 이 선수가 그룹 B에 속해있을 확률을 구하라.

자유투 5개 중 3개를 성공시키는 사건을 A, 선수가 그룹 B에 속하는 사건을 B라고 하자. 문제는 이 때 P(B|A) 를 구하라는 것이며, 조건부확률 공식에 따르면 답은 다음과 같이 구할 수 있을 것이다.

그런데 두 그룹 선수들의 자유투 성공률이 다르기 때문에 P(A)를 계산하는 것이 일반적인 빈도 세기와는 다르다. 먼저 두 사건을 정의하자.

문제는 두 그룹의 선수의 평균적인 자유투 성공률이 다르다는 것이다. 이 값은 문제에 주어지기 때문에 각 그룹의 선수가 5번 시도에서 3번 성공할 확률은 각각 계산은 가능하다. 개별적인 자유투 시도들은 모두 독립시행이기 때문에 이항분포를 사용하여 다음과 같이 계산할 수 있다.

문제는 두 그룹 선수의 자유투 성공율을 서로 더한다고 해서 P(A)를 구할 수 있다는 것이 아니다. “그룹 B 선수의 자유투 3회 성공율”은 정확히 말해서 P(A∩B) 가 아니라 P(A|B) 이기 때문이다. 즉 단순히 두 사건이 겹쳤을 때의 확률이 아니라, 선수가 이미 B그룹의 소속이라는 사건이 발생한 상황에서 이 선수가 자유투를 3회 성공시킬 확률을 계산한 것이다. 따라서 위 계산을 다시 식으로 쓰면 다음과 같다.

문제를 통해 P(B), P(Bc) 를 알고 있으므로, 이 값을 사용하면 P(A∩B) 와 P(A∩Bc) 를 계산할 수 있으며, 이렇게 나온 두 확률을 더하면 P(A) 가 된다.

따라서 P(B|A) = P(A∩B) / P(A) = 0.4327655449 ≒ 0.4328 로 43.28%라고 답할 수 있다.

문제에서 쉽게 함정에 빠지는 부분은 “그룹 B의 선수가 자유투를 3회 성공할 확률”을 계산하는 것은 충분히 가능함에도 이것이 P(A|B) 인지, P(A∩B) 인지를 구분하기 어렵다는 것이다. 조건부 확률이란 전체 확률 공간 중에서 조건이 되는 사건이 발생한 부분 집합을 확률 공간으로두고 그 내부에서 다른 사건이 발생하는 확률을 말하는 것이다. 이 경우 선수가 1그룹에 속하는 사건과 2그룹에 속하는 사건을 각각 확률 공간으로 두었고, 따라서 분모가 다른 분수의 분자들을 더하는 것처럼, 그대로 더하는 것은 말이 되지 않는다. 위 계산 식에서도 각각 구한 확률은 P(A|B) 이지, P(A∩B)를 구했던 것이 아니다.

동시에 일어난 사건에 대한 확률이 교집합의 확률인지, 조건부 확률인지를 알아내는 방법으로는 모든 경우의 확률의 합이 1인지 아닌지를 보는 것이다. P(B|A) 는 사건 A가 발생하는 확률공간 내에서의 확률이므로, B의 가능한 모든 경우의 확률을 합하면 1이 나오게 된다.

조건부 확률의 함정

두 번째 예제의 결과를 생각해보자. 자유투 5개 중 3개를 성공한 선수는 약 43.28%의 확률로 상대적으로 슛 정확도가 떨어지는 그룹의 선수일 것이라는 이야기이다. 43%이면 절반에 가까운 수치인데, 그렇다면 자유투 성공률이 높은 그룹의 선수와 그렇지 않은 그룹의 선수의 기량 차이가 별로 없다는 뜻인걸까?

당연히 그렇지 않다. 5번의 자유투 시도에 대해서 A그룹과 B그룹의 선수들의 분포가 다를 것이다. B 그룹의 선수들은 평균적으로 50%의 성공률을 보이므로, 5회 시도 시 2~3회 성공하는 구간에 선수들이 많을 것이다. 한 편 A 그룹의 선수들은 평균적으로 80%의 성공률을 보이므로 5회 시도 시 4회 성공하는 구간에 많은 선수가 분포할 것이다. 거꾸로 5회 시도 시 1회만 성공하는 선수를 찾는다고 한다면, 이 선수가 A 그룹보다는 B 그룹에 해당할 확률이 월등히 클 것이다.

다음 표는 평균 자유투 성공율을 기반으로 0회~5회의 성공 확률을 각각의 그룹 선수에 대해 계산한 것이다. A그룹의 선수는 1회 성공할 확률이 0.64%에 불과한데 비해 B그룹 선수는 15.63%나 된다. 반대로 5번 모두 성공하는 확률도 A그룹 선수가 32.77%로 약 10배 가량 높게 나오는 것을 볼 수 있다.

A그룹B 그룹
0/50.03% 3.13%
1/50.64%15.63%
2/55.12%31.25%
3/520.48%31.25%
4/540.96%15.63%
5/532.77%3.13%
합계100%100%

이처럼 조건부 확률은 실제 원리와 직관이 다른 경우가 많다. 왜냐하면 실제로 그 수치를 이해하는 데에는 배경 정보가 더 필요한 경우이거나, 혹은 P(A|B)와 P(B|A)를 혼동하는 것이 흔한 실수이다. 교통 사고 사망자의 40%가 안전벨트를 미착용자라는 통계가 있다고 하자. 그러면 거꾸로 교통사고 사망자의 60%는 안전벨트 착용자인데, 그렇다면 교통사고에서 안전벨트를 착요하는 것이 더 위험한 것 아니냐고 반문할 수도 있을 것이다.

물론 대부분의 사람들은 그것이 말이 안되는 이야기라는 것을 “느낀다.” 왜냐하면 그것은 우리가 조건부 확률을 명확하게 이해하고 있다기 보다는 어렸을 때부터 ‘안전띠는 생명띠’등의 캠페인을 통해서 안전 벨트 착용이 교통사고에서의 사망율을 줄이는데 큰 도움이 된다는 것을 학습해서 믿고 있기 때문에, 그러한 믿음에 어긋나는 정보를 쉽게 의심하기 때문이다.

조건부 확률에서 기반 사건이 여사건인 경우에는 단순히 뺄셈으로는 계산할 수 없다는 것은 본문에서 소개된 식만 봐도 알 수 있다. 따라서 이러한 주장을 계산으로 검증해볼 필요가 있겠다.

간단히 구글링해서 찾을 수 있는 값들을 사용해보자. 우리나라의 도로교통사고 사망율은 인구 10만명당 6.0명 수준이다. 그리고 안전띠 착용율은 84.8%로 나타난다.

그렇다면 운전자 100만명당, 다음과 같은 경우의 수를 생각할 수 있다.

이 수치로부터 안전띠를 착용했을 때의 사망율과 안전띠를 착용하지 않았을 때의 사망률을 각각 계산하면 다음과 같다.

보다시피 안전띠를 착용하지 않았을 때의 사망률이 안전띠를 착용했을 때의 사망률의 4배에 달한다. “교통 사고 사망자 중 40%가 안전띠를 착용하지 않았다”를 일상적인 관념에서 평가하려면, 실제 안전띠를 착용하지 않는 사람의 비율을 알 필요가 있는 것이다. 전체 운전자의 약 10% 정도가 안전띠를 착용하지 않는데, 만약 안전띠를 착요하는 것이 더 안전하거나, 혹은 오히려 위험하다면 사망자 중에서도 안전띠를 착용하지 않은 사람의 비율은 10% 이거나 오히려 그 보다 낮아야 하는 것이 상식에 부합한다. 그럼에도 사망자의 40%가 안전띠를 착용하지 않은 사람이라는 것은 안전띠를 하지 않은 것이 훨씬 치명적이라는 것이다.

사망자 중에서 안전띠를 한 사람의 절대적인 수가 안전띠 미착용자보다 많은 것은, 실제 도로의 운전자중에서 압도적으로 많은 비율의 운전자가 안전띠를 한 사람들이기 때문이지, 안전띠가 목숨을 구하는데 도움이 되지 않기 때문이 아닌 것이다.

Exit mobile version