이는 데이터 공간에서 입력 $x$와 출력 $y$ 사이의 관계를 모델링한다. 즉, 특정한 클래스가 주어진 조건에서 데이터의 확률분포를 보여준다.
단, 연속확률분포일 경우에는 $P(x|y)$ 또는 $P(y|x)$ 는 확률이 아니고 밀도로 해석해야 한다는 점을 유의한다.
조건부확률과 기계학습
로지스틱 회귀에서 사용했던 선형모델과 softmax 함수의 결합은 데이터에서 추출된 패턴을 기반으로 확률을 해석하는데 사용된 것이다.
분류 문제에서 $softmax(Wϕ+b)$는 데이터 $x$로부터 추출된 특징패턴 $ϕ(x)$과 가중치 행렬 $W$을 통해 조건부 확률 $P(y|x)$을 계산하는 것이다.
즉, Input $x$가 특정 Class인 $y$에 해당하는가를 모델링 한 것이다.
조건부 기대값
회귀문제의 경우에는 특정 $y$값이 될 확률을 구하는 것이 아니기 때문에 조건부 기대값을 추정한다.
조건부 기대값인 $E[y|x]$은 함수 $f(x)$와 일치하는데, 이 함수는 $L_2$ Norm인 $E||y−f(x)||_2$를 최소화하는 함수이다.
조건부 기대값은 밀도함수인 조건부 확률분포에서 $y$에 대해 적분한 값이 된다.
기댓값(Expectation)
기댓값은 데이터를 대표하는 통계량이며, 다른 통계적 수치를 계산하는데 사용된다.
$P(x)$가 연속형일 때, $E[f(x)]=∫f(x)P(x)dx$
$P(x)$가 이산형일 때, $E[f(x)]=∑f(x)P(x)$
기댓값을 이용해 분산, 첨도, 공분산 등 여러 통계량을 계산할 수 있다.
딥 러닝과 특징패턴
딥러닝은 주어진 데이터 $x$로부터 다층 신경망을 통해 특징패턴 $ϕ$를 추출한다.
이때, 특징패턴을 학습하기 위해 어떤 손실함수를 사용할지는 기계학습의 문제와 모델에 의해 결정되는 것이다.
몬테카를로 방법(Monte Carlo method)
기계학습에서는 확률분포를 대체로 모를 때가 많다.
이때, 데이터를 이용해 기댓값을 계산하는 방법으로 몬테카를로 샘플링을 이용한다.
데이터를 여러 번 독립추출하면 대수의 법칙에 따라 이들의 기댓값(샘플링의 기댓값)은 실제 데이터 분포의 기댓값에 수렴하며, 이는 이산형 또는 연속형 확률변수에 무관하게 사용 가능하다.
단, 샘플링하는 데이터의 크기가 어느 정도 커야 한다.
$X_1$ $X_2$, $...$, $X_n$이 평균 $\mu$와 분산 $\sigma^2$을 갖는 임의의 $i.i.d.$ 확률변수들이라고 할 때, $n$이 충분히 크다면 $X_1$ $X_2$, $...$, $X_n$의 표본평균 $\overline{X}$는 평균 $\mu$와 분산 $\dfrac{\sigma^2}{n}$을 갖는 정규분포에 가까워진다는 중심극한정리(central limit theorem)와 유사한 맥락에서 나오는 개념인 것으로 이해할 수 있다고 본다.