본문 바로가기

Data Science

(5)
확률변수 (random variable) 확률변수(random variable) : 특정 확률 분포와 연관되어 있는 변수를 의미한다. 확률변수의 기대값(expected value) : 모든 확률변수의 확률을 해당 확률변수의 값으로 가중평균한 값 간단하게 동전의 앞면이 나오면 1 동전의 뒷면이 나오면 0인 확률변수를 예시로 들 수 있다. 값이 0인 확률변수의 확률은 0.5 이며 값이 1인 확률변수의 확률 또한 0.5 이다. 기댓값은 $1/2(= 0 * 1/2 + 1 * 1/2)$ 이다. 또 다른 예로, range(10) 에서 나온 값을 생각해볼 수 있다. 이 경우는, 0부터 9까지 모든 변수의 값에 대한 확률은 0.1 이다. 여기서 확률 변수의 기댓값은 4.5 이다. 확률변수 또한 보통 사건처럼 조건부 확률을 구할 수 있다. 만약 $X$ 라는 확..
[데이터 과학] 베이즈 정리 (Bayes's Theorem) 조건부 확률을 반대로 뒤집는 이론 가령, 사건 F 가 발생했다는 가정하에 사건 E 가 발생할 확률이 필요하다고 해보자. 하지만 사건 E 가 발생했다는 가정하에 사건 F 가 발생할 확률만 주어졌다고 하면 조건부 확률의 정의를 두 번 사용하면 다음과 같이 식을 정리할 수 있다. * 여기서 P(E,F) 는 독립사건을 의미할수도, 종속사건을 의미할 수도 있기 때문에, 사건 E 가 발생했다는 가정하에 사건 F 가 발생할 확률의 표현식으로 풀어써줄 수 있는것이다. 그리고, 사건 F 를 사건 F 와 사건 E 가 모두 발생하는 경우 와 사건 F 는 발생하지만 사건 E 는 발생하지 않는 경우 에는 두 사건을 상호배타적인 사건으로 나눌 수 있다. 이를 이용하면 베이즈 정리는 다시 다음과 같이 정리할 수 있다. 예를 들어,..
[데이터 과학] 종속성과 독립성, 조건부 확률 종속성과 독립성 사건 E 의 발생 여부가 사건 F 의 발생 여부에 대한 정보(혹은 그 반대로) 를 제공한다면 두 사건 E 와 F 는 종속사건(dependent events) 로 볼 수 있다. 그렇지 않다면 두 사건은 독립 사건(independent events) 이다. 예를 들어, 동전을 두 번 던졌을 때, 첫 번째 동전에서 앞면이 나왔더라도 두 번째 동전에서 마찬가지로 앞면이 나올지는 아무도 알 수 없다. 이 두 사건은 독립 사건이다. 하지만 첫 번째 동전에서 앞면이 나왔다면 두 동전에서 모두 뒷면이 나오는 경우의 발생 여부에 대해서는 알 수 있다. ( 첫 번째 동전에서 앞면이 나왔다면 두 동전에서 모두 뒷면이 나올 경우는 사라지기 때문이다.) 그렇다면 두 사건은 종속 사건이다. 수학적으로, 사건 E ..
[데이터 과학] 통계 (Statistics) 통계란? 일상생활이나 여러 가지 현상에 대한 자료를 한눈에 알아보기 쉽게 수치로 나타내는 것이다. 어떠한 웹 사이트에서 각 사용자들이 몇 명의 친구를 갖고 있는지 설명해 달라고 요청했다고 하자. 데이터 수가 작다면 사용자와 친구간의 데이터를 그대로 보여주면 되겠지만, 데이터가 많다면 데이터를 다루는 것도 불편하고 이해하기도 힘들 것이다. 이럴 때 통계를 사용하면 데이터를 정제해서 중요한 정보만 전달해줄 수 있다. from collections import Counter # 사용자의 친구수를 히스토그램으로 나타내기 num_friends = [100.0, 49, 41, 40, 25, 21, 21, 19, 19, 18, 18, 16, 15, 15, 15, 15, 14, 14, 13, 13, 13, 13, 12..
벡터(Vector) 란? 1. 벡터란 간단히 말하면, 벡터(vector) 는 벡터끼리 더하거나 상수(scalar) 와 곱해지면 새로운 벡터를 생성하는 개념적인 도구이다. 더 자세하게는, 벡터는 어떤 유한한 차원의 공간에 존재하는 점들이다. 대부분의 데이터, 특히 숫자로 표현된 데이터는 벡터로 표현할 수 있다. 수많은 사람들의 키, 몸무게, 나이에 대한 데이터가 주어졌다고 해보자. 그렇다면 주어진 데이터를 (키, 몸무게, 나이) 로 구성된 3차원 벡터로 표현할 수 있을 것이다. 또 다른 예로, 시험을 네 번 보는 수업을 가르친다면 각 학생의 성적을 (시험1 점수, 시험2 점수, 시험3 점수, 시험4 점수)로 구성된 4차원 벡터로 표현할 수 있을 것이다. 벡터를 가장 간단하게 표현하는 방법은 여러 숫자의 리스트로 표현하는 것이다. ..