[인공지능 기초] Uncertainty(2) - 결합 확률과 조건부 확률 그리고 베이즈 정리
- -
지난 글에서 우리는 이 세상의 많은 일들이 확률에 의존한다는 것을 알았고, 사건에 관한 확률을 다룰 때 명제로 표현하여 사용한다는 점을 확인했다. 또한 증거(evidence)가 기존에 알고 있던 정보를 달라지게 할 수 있으므로 앞으로 증거에 유의해서 보자는 말을 덧붙였다. 이 글에서는 확률을 공부할 때 필수로 알아두면 좋을 몇 가지 정리를 살펴보고, 새로운 지식(결과)인 증거가 주어졌을 때 그 이전의 지식(원인)이 무엇인지를 추정하는 데 도움이 되는 베이즈 정리에 관해 알아보고자 한다. 지난 글에서 이어지는 내용이므로 좀 더 명확한 이해를 원한다면 이전 글을 참고하는 것을 추천한다.
[인공지능 기초] Uncertainty (1) - 확률적인 추정을 위한 확률과 사건, 그리고 명제
들어가기 전에 이 세상의 많은 일들은 확률적인 경우가 많다. 그 상황에서 우리는 자신의 목적에 가장 부합하면서 확률적으로 발생 가능성이 높거나 낮은 것을 고려하여 최선의 선택을 하려고
glanceyes.com
결합 확률과 조건부 확률
결합 확률
결합 확률과 결합 확률 분포
결합 확률(joint probability)은 둘 이상의 사건이 동시에 발생할 확률이다. 이러한 결합 확률의 분포(joint probability distribution)는 둘 이상의 사건(랜덤 변수)에 할당 가능한 각각의 모든 값에 관해 그 확률이 어떠한지를 구한 것이다. 이는 지난 글에서 설명했다시피 사건은 랜덤 변수로 볼 수 있고, 그러한 랜덤 변수들 각각이 지닐 수 있는 값을 하나의 sample point로 해석할 수 있다. 그러므로 결합 확률 분포를 구한다는 건 둘 이상의 랜덤 변수로 만들 수 있는 각각의 모든 sample point가 발생할 확률을 구하는 것과 동일하다.
두 사건
예를 들어 날씨가 어떠한 상태인지를 뜻하는 랜덤 변수인
랜덤 변수가 너무 많지 않으면 위처럼 충분히 표로 결합 확률 분포를 나타낼 수 있다. 모든 랜덤 변수가 해석하는 방법도 간단하다. 날씨가 맑으면서 충치를 걸리지 않을 확률인
결합 확률 분포와 공간복잡도
위의 예시에서는 결합 확률 분포에 필요한 랜덤 변수가 두 개이므로 적은 편이어서 크게 상관이 없지만, 만약 결합되는 랜덤 변수가 늘어나면 세부적으로는 각 랜덤 변수의 도메인 크기에 따라 차이는 있지만 전반적으로 지수적으로(exponentially) 공간복잡도(space complexity)가 늘어날 수 밖에 없다. 결합 확률 분포에서 필요로 하는 독립적인 entry의 수를 구해보면 왜 공간복잡도가 큰지를 이해할 수 있다. 만약 세 개의 사건
조건부 확률과 독립
사전 확률
이전에 우리는 증거(evidence)를 새롭게 주어지는 정보로 보자고 했고, 그 증거가 주어짐에 따라 이전에 알고 있던 정보를 바꿀 수 있다고 했다. 그러면 그 증거가 주어지기 전에 이전에 알고 있던 정보를 토대로 하는 확률을 사전 확률(prior)과 연관지을 수 있다.
사전 확률은 어떠한 새로운 증거가 오기 이전에 알고 있던 믿음(belief)에 대응되는 확률이며, 증거 등 다른 임의의 정보에 제약되지 않으므로 unconditional probability라고도 한다. 예를 들어
대체로 사전 확률은 이전에 알고 있던 전제를 기반으로 하므로 문제에서 이미 값이 주어지는 경우가 많다. 베이즈 정리에서 더 자세히 설명하겠지만, 충치와 직접적으로 관련된 또는 그렇지 않은 사람의 어떠한 진단 결과만을 가지고 그 사람이 실제로 충치를 지니고 있을 확률을 구해야 할 때, 일반적인 사람이 충지를 가지고 있을 확률처럼 관찰 또는 실험에 의해 알려진 정보인 사전 확률을 사용하는 것처럼 말이다.
조건부 확률
어떤 임의의 정보
정의를 있는 그대로 해석해보면, 정보
이때
예를 들어 치통이 있다는 사건(정보)을
독립
그러나 새로운 정보인 증거가 무조건 기존의 정보와 연관되어 있다고 보기 어려울 수도 있다. 예를 들어 충치를 가지고 있는지 여부인
서로 독립인 사건이 각각 다른 사건의 조건부로 주어졌을 때, 조건부로 주어진 정보에서 사건의 랜덤 변수가 어떠한 값을 갖든 간에 어떠한 사건이 발생할 확률을 구하는 데는 상관이 없다는 뜻이다.
어떤 둘 이상의 사건이 서로 독립이라는 조건이 주어지면, 조건부 확률에서 항을 더 간단히 줄일 수 있다. 세 사건
확률에 관한 정리
본격적으로 베이지안 네트워크(Bayesian network)를 공부하기 전에 필수로 알아두어야 할 세 가지의 정리에 관해서 살펴보고자 한다. 이 정리들은 앞으로 확률을 공부하는 데 있어서 자주 등장하면서 사용하는 정리들이므로 스스로 여러 번 써 보면서 반드시 익힐 필요가 있다. 백 번 강조해도 모자랄 만큼 정말 중요하다.
Product Rule과 Chain Rule
Product Rule
곱의 법칙(Product Rule)은 결합 확률을 조건부 확률 항을 사용하여 나타내기 위한 용도로 사용된다. 일반적으로 문제에서 결합 확률을 알려주기보다는 조건부 확률과 사전 확률을 제시하는 경우가 많으므로 곱의 법칙은 문제를 해결하는 데 있어서 매우 중요한 성질이다.
어떠한 두 사건
어렵게 생각할 필요 없이 정의를 있는 그대로 해석하여 받아들이면 된다. 사건
Chain Rule
Chain Rule의 정의
이를 일반화 한 것이 바로 chain rule인데, 여러 사건에 관한 결합 확률을 구할 때 연쇄적으로 곱의 법칙을 적용한 것이라고 보면 된다.
다시 말해, 사건
Chain Rule이 유용한 이유
일부 사건이 서로 독립인 경우, chain rule을 사용하여 결합 확률 항을 조건부 확률 항으로 바꿈으로써 전체 도메인에 관해 필요로 하는 독립적인 항의 개수를 줄일 수 있다. 앞서 boolean 값을 도메인으로 지니는 세 개의 사건
만약 사건
또한 chain rule은 이후 시리즈 내용에서 등장할 HMM(Hidden Markov Models)에서 특정 시점의 확률을 추론할 때 사용되는 핵심적인 정리이므로 꼭 익혀두는 것을 권장한다.
Bayes 정리
Bayes 정리의 의미
Bayes 정리를 이해하기 전에 이전 글에서 정리했던 '증거'의 의미를 같이 고려하는 게 필요하다. 앞서 우리는 '증거'가 기존에 알고 있던 정보를 달라지게 할 수 있는 새롭게 주어진 정보를 의미한다는 걸 배웠다. Bayes 정리는 증거가 주어졌을 때 기존에 알고 있던 정보에 관한 믿음이 어떻게 변하였는지 그 사후 확률을 알아보기 위해 유용한 정리이며, 증거를 사건
Bayes 정리는 product rule에서 쉽게 도출할 수 있다. 사건
Bayes 정리와 Normalization
Bayes 정리에서
증거에 관한 확률이 명확히 정해진 경우 또는 해결해야 하는 문제에서
여기서 왜 normalization term을 사용하는 것인지 의문이 들 수 있다. 사건
Marginalization
마지막으로 확률에서 자주 사용하는 정리 중 하나인 marginalization이 있으며, 'summing out'이라고도 말한다. Marginalization은 어떤 사건에 관한 확률을 구해야 하는데 그 자체로 확률 값을 계산하기 어려운 경우 쓰이는 정리이며, 구하고자 하는 사건과 연관된 숨겨진 hidden variable이 지닐 수 있는 모든 값에 관한 결합 확률의 합(
확률을 구하고자 하는 사건을
이 정리를 언제 사용하는지 잘 감이 안 온다면 앞서 나온 예시를 다시 한 번 들어보자.
위의 예시에는 두 개의 사건
Marginalization은 product rule과 같이 사용되면서 bayesian network, HMM 등 다양한 정리에서 응용되어 사용되므로 익숙해질 필요가 있다.
이제까지 배운 내용을 간단히 노트로 정리해보면 다음과 같다.

소중한 공감 감사합니다.