본문 바로가기

Data Science

[데이터 과학] 종속성과 독립성, 조건부 확률

종속성과 독립성

사건 E 의 발생 여부가 사건 F 의 발생 여부에 대한 정보(혹은 그 반대로) 를 제공한다면 두 사건 E 와 F 는 종속사건(dependent events) 로 볼 수 있다. 그렇지 않다면 두 사건은 독립 사건(independent events) 이다.

 

예를 들어, 동전을 두 번 던졌을 때, 첫 번째 동전에서 앞면이 나왔더라도 두 번째 동전에서 마찬가지로 앞면이 나올지는 아무도 알 수 없다. 이 두 사건은 독립 사건이다.

 

하지만 첫 번째 동전에서 앞면이 나왔다면 두 동전에서 모두 뒷면이 나오는 경우의 발생 여부에 대해서는 알 수 있다. ( 첫 번째 동전에서 앞면이 나왔다면 두 동전에서 모두 뒷면이 나올 경우는 사라지기 때문이다.)

 

그렇다면 두 사건은 종속 사건이다.

수학적으로, 사건 E 와 F가 동시에 발생할 확률이 각각 사건이 발생할 확률의 곱과 같다면 두 사건은 독립 사건을 의미한다.

 

 

동전 던지기 예시를 다시 살펴보면 첫 번째 동전에서 앞면이 나올 확률은 1/2 이고 두 동전이 모두뒷면일 확률은 1/4 이다. 하지만 첫 번째 동전이 앞면이고 두 동전이 뒷면일 확률은 0 이기 때문에 두 사건은 종속 사건이다.

 

 

조건부 확률

두 사건이 반드시 독립사건이라는 보장이 없고, 사건 F 의 확률이 0이 아닌 경우, 사건 E 가 발생할 조건부 확률(conditional probability) 을 다음과 같이 정의할 수 있다.

 

 

즉, 조건부 확률이란 사건 F 가 발생했을 경우, 사건 E 가 발생할 확률이라고 이해할 수 있다.

그리고, 사건 E, F 가 독립 사건이라면 다음과 같은 식이 성립한다.

 

 

이 식은 P(F) 가 성립했을때 P(E) 가 성립하는 확률이나, P(E) 가 성립하는 확률이나 동일하다는 것을 의미한다.

즉, 이것은 독립사건임을 의미한다.

 

헷갈리기 쉬운 두 아이의 성별을 맞추는 예시를 살펴보자.

우선 다음 두 가지 조건을 가정한다.

  • 각 아이가 딸이거나 아들일 확률은 동일하다.
  • 둘째의 성별은 첫째의 성별과 독립이다.
  1. 첫째가 딸인 경우 (사건 G), 두 아이가 모두 딸일 (사건B) 확률은 어떻게 될까?

 

     2. 딸이 최소 한명인 경우 (사건 L), 두 아이가 모두 딸일 확률은 어떻게 될까?

 

두번째 결과를 보자. 만약 딸이 최소 한명이라면 딸 한명과 아들 한명일 확률이 두 명이 모두 딸일 확률보다 두배나 높은 신기한 결과를 볼 수 있다.

 

수 많은 가족들을 만들어서 위의 식을 검증해볼수도 있다.

 

import enum
import random


class Kid(enum.Enum):
    BOY = 0
    GIRL = 1


def random_kid() -> Kid:
    return random.choice([Kid.BOY, Kid.GIRL])


both_girl = 0
older_girl = 0
either_girl = 0

random.seed(0)

for _ in range(10000):
    younger = random_kid()
    older = random_kid()
    # 첫째가 딸인 경우
    if older == Kid.GIRL:
        older_girl += 1
    # 둘 다 딸인 경우
    if older == Kid.GIRL and younger == Kid.GIRL:
        both_girl += 1
    # 둘 중에 하나만 딸인 경우 = 최소 하나가 딸인 경우
    if older == Kid.GIRL or younger == Kid.GIRL:
        either_girl += 1

print("P(both|older):", both_girl / older_girl)  # 0.5007089325501317 ~ 1/2
print("P(both|either):", both_girl / either_girl)  # 0.3311897106109325 ~ 1/3

'Data Science' 카테고리의 다른 글

확률변수 (random variable)  (0) 2021.01.21
[데이터 과학] 베이즈 정리 (Bayes's Theorem)  (0) 2021.01.10
[데이터 과학] 통계 (Statistics)  (0) 2021.01.03
벡터(Vector) 란?  (0) 2020.12.31