확률의 정의

미분류

2020. 1. 3. 00:00

1. Fundamental of Probability

1) 시행 : 시행은 동일한 조건에서 반복가능하며, 결과가 우연에 의해 지배되는 실험/관찰을 말한다. 우연에 의해 지배된다는 것은 결과를 마음대로 조작할 수 없다는 것이다. (일부러 앞면이 나오도록 동전을 던질 수 없다는 의미!)

 

2) 표본 공간 : 시행의 모든 결과를 포함하는 집합을 표본공간이라고 한다. 주사위를 던진다면, 1이 나오는 경우, 1과 2가 나오는 경우, 2의 배수가 나오는 경우 등등 매우 다양한 시행들이 있을 수 있다.

 

3) 사건 : 표본공간의 부분 집합을 사건이라고 한다. 표본공간의 부분집합으로, 1과 2가 나오는 경우, 2의 배수가 나오는 경우 등 전체 가능한 시행중 일부를 의미한다.

[그림] 표본공간과 사건의 관계

 

4) 근원 사건 (단순사건)원소의 개수가 1개인 사건을 의미한다. 예를 들어, 주사위를 던진다고 가정하면 1의 눈이 나오는 사건은 단 하나뿐이기에 근원 사건임.

 

2. 사건은 집합이므로 연산 가능하다.

사건은 집합이기 때문에 집합연산을 수행할 수 있다.

 

1) 합 사건 :

4의 약수인 사건 또는 홀수인 사건

→ 4의 약수인 사건 홀수인 사건

 

2) 곱 사건 :

4의 약수인 사건 그리고 홀수인 사건

→ 4의 약수인 사건 홀수인 사건

 

3) 여사건 :

4의 약수가 나오지 않는 사건

→ 4의 약수인사건 $^C$

 

4) 배반사건 :

두 사건 사이의 교집합이 공집합인 경우

A ∩ B = ∅

 

[그림] 배반사건인 두 사건 A, B

 

3. Definition of Probability

1) 수학적 확률 (라플라스의 정의)

 

 P(A) = $\frac{n(A)}{n(S)}$

 

라플라스의 확률은 근원사건이 일어날 가능성이 모두 균일할 때 계산 가능하다. 여기에서 A는 사건, S는 표본공간을 나타내고, n(A)는 A의 원소 개수, n(S)는 S의 원소개수를 의미한다. 표본공간 S의 부분집합은 {∅(공사건), ..., S(전사건)} 이고, 때문에 확률의 범위는 [P(∅), P(S)] = [0, 1]가 된다. 그런데, 경우의 수나 원소의 수를 셀 수 없는 경우에는 어떻게 확률을 계산할까?

 

2) 기하학적 확률 : 양궁선수가 활을 쏜다고 할 때, 과녁의 모든 부분에 맞을 확률이 동일하다고 가정하면 (근원사건이 일어날 확률이 같다면), 노란색 부분을 맞출 확률은 얼마나 될까? 모든 면은 선으로 이루어져있고, 모든 선은 점으로 이루어져있기 때문에, 노란색 부분의 점의 수를 전체 과녁에 있는 점의 수로 나눠주면 확률을 계산할 수 있을 것 처럼 보인다. 그러나 우리는 과녁에 있는 점의 개수를 셀 수 없다. 때문에 이 경우, 노란색 부분의 넓이를 전체 과녁 넓이로 나눠서 확률을 계산한다. 그런데, 우리가 실생활에서 확률을 계산할 때, 근원사건이 일어날 확률이 모두 같지는 않다. 그러면 어떻게 이런 경우 확률을 게산할까?

 

[그림] 양궁 과녁

 

3) 통계적 확률 : 통계적 확률은 근원사건이 일어날 경우가 모두 다른 경우 사용한다. 예를 들어 우리가 윷놀이를 한다고 가정하면, 앞면 (XXX 모양이 있는 부분)과 뒷면 (평평한 부분)의 모양이 다르기 때문에 정확히 확률이 $\frac{1}{2}$라고 하기 어렵다. 때문에 이런 경우 직접 윷을 던져보면서 확인한다. 

 

[그림] 윷놀이에 쓰이는 윷가락

 

이 때 의문이 발생할 수 있다. 만약 2번 던져서 1번만 앞면이 나오면, 앞면이 나올 확률은 $\frac{1}{2}$이고, 5번 던져서 앞면이 3번 나오면 앞면이 나올 확률이 $\frac{3}{5}$인가? 시행하는 횟수에 따라 확률이 달라지는 것 처럼 보인다. 시행의 횟수가 많을수록 확률이 고전적인 개념의 확률과 비슷해지기 때문에 시행회수를 무한대로 보낸다. (n은 시행, r은 사건이다) 

 

$\lim_{n\to\infty} \frac{r}{n}$

 

이 것을 수학적으로 증명한 것이 대수의 법칙(큰 수의 법칙)이다. 쉽게 말해서, 표본의 수가 많을 수록 실사건의 통계적 예측에서 오차가 점점 줄어든다는 것이다. 이는 통계적 확률과 수학적 확률 (라플라스)를 이어주는 굉장히 중요한 법칙 중 하나이다. 우리가 일상 생활에서 큰 수의 법칙을 쉽게 접할 수 있는 부분은 스포츠계의 명언 "내려갈 팀은 내려간다."이다. 약팀이라도 초반에 몇 경기를 승리하면 높은 승률을 기록하여 상위 순위에 랭크될 수 있지만, 경기를 지속하여 경기 수가 많아질 경우, 원래 실력대로 수렴하여 다시 하위권으로 내려가게 된다.

 

4) 공리적 확률 (콜모고로프의 정의) : 수학적으로 정의된 공리적 확률은 안드레이 콜모고로프가 20세기 중반에 제시했고, 그는 확률을 추상화 하는데 성공했다. 공리적 확률은 우선 우리가 '사건'이라고 부르던 것부터 손을 봤다. '사건'을 정의하기 위해 도입한 수학적 구조가 바로 '시그마 대수 (σ - Algebra)'이다. 시그마 대수의 정의는 다음과 같다.

 


표본공간 S의 부분집합 모임 ∑가

다음성질을 만족하는 경우 ∑를 시그마 대수라고 한다.

 

1. $S \in \Sigma$

 

2. $A \in \Sigma$ 일 때, $A^C \in \Sigma$

 

3. $A_1 \in \Sigma (i=1, 2, 3, \cdots)$ 일 때,

$A_1 \cup A_2 \cup A_3 \cdots \in \Sigma$

 


 

잘 살펴보면 전사건(1번), 여사건(2번), 합사건(3번)이 역시 사건이 되도록 보장한 구조를 시그마 대수라고 함을 확인할 수 있다. 위 정리를 이용하여 공사건과 곱사건도 역시 시그마 대수의 원소가 된다는 것을 증명할 수 있다. 즉, 시그마 대수란 전사건, 공사건을 포함한 사건의 모든 연산 결과 역시 사건이 된다는 정리이다. 이 시그마 대수 를 기반으로 하는 공리적 확률은 아래와 같이 정의된다.

 


σ - Algebra인 ∑가 있을 때, 함수 P가

다음 성질을 만족하는 경우 P를 확률이라고 한다.

 

1. 모든 $A \in \Sigma$에 대하여 $P(A) \geq 0 $

 

2. $P(S) = 1$

 

3. 임의의 $A_i , A_j (i \neq j)$ 에 대해,

$A_i \cap A_j = \emptyset$ 인 경우 (쌍마다 배반사건),

$P(A_1 \cup A_2 \cup A_3 \cup \cdots ) = \sum_{i=1}^{\infty} P(A_i)$

 


 

모든 확률은 0보다 크거나 같으며, 전사건의 확률은 1이고, 쌍마다 배반인 사건들에 대해 합사건의 확률은 사건들의 확률합과 같다. 이러한 확률의 정의는, 어떤 원소의 개수, 어떤 영역의 넓이, 부피 등도 위 성질을 잘 만족하게 한다. 때믄에 직관적으로 허용된 확률의 값을 구하지만 위 성질을 만족하는 다양한 다른 함수를 이용해도 그 것을 확률로서 정의할 수 있게 되는 것이다. 대표적으로 이후에 언급할 확률밀도함수(Probaility Density Function)가 이러한 방식으로 정의된 확률을 나타내는 함수이다. 

 

4. Reference

 

확률 - 나무위키

확률의 최초의 정의는 수학자 라플라스가 논문 Théorie analytique des probabilités에서 다음과 같이 내린 정의다. 어떤 사건의 발생 확률은 그것이 일어날 수 있는 경우의 수 대 가능한 모든 경우의 수의 비이다. 단, 이는 어떠한 사건도 다른 사건들 보다 더 많이 일어날 수 있다고 기대할 근거가 없을 때, 그러니까 모든 사건이 동일하게 일어날 수 있다고 할 때에 성립된다. 즉 표본공간 S가 n개의 근원사건으로 이루어져 있고, 각 근

namu.wiki

 

확률 개념의 발전과정

이 글은 확률 개념의 시작에서 추상화까지의 개념 발전과정을 다룬다. 1. 확률 개념의 수학사 확률의 연구는 유럽 귀족들이 그들이 즐기던 도박의 진행상황을 예측해 보다 유리한 전략을 짜보려는 호기심에서 출발..

pkjung.tistory.com

 

'미분류' 카테고리의 다른 글

Preprocessing - Ont-Hot Encoding  (0) 2020.01.08
Preprocessing - Integer Encoding  (0) 2020.01.08
Preprocessing - Stopword  (0) 2020.01.08
Preprocessing - Stemming & Lemmatization  (0) 2020.01.08
Preprocessing - Cleaning & Normalization  (0) 2020.01.08
Preprocessing - Tokenization  (0) 2020.01.08
파일구조란 무엇인가?  (0) 2020.01.04