Thompson Sampling이란? 주어진 개의 액션에 해당하는 reward의 추정치 가 확률 분포를 따른다고 가정하는 것이다. 이때 많이 사용하는 확률 분포는 베타 분포이다. MAB와의 가장 큰 차이점은 각각의 액션의 reward 추정치를 확률이 아닌 확률 분포를 사용하는 것이다. 베타 분포(Beta Distribution) 두 개의 양의 변수 , 로 표현할 수 있는 확률 분포이며, 0과 1 사이의 값을 갖는다. 여기서 는 , 에 의해 ..
MAB(Multi-Armed-Bandit)를 활용한 Thompson Sampling과 LinUCB(Linear Upper Confidence Bound)
Thompson Sampling이란? 주어진 개의 액션에 해당하는 reward의 추정치 가 확률 분포를 따른다고 가정하는 것이다. 이때 많이 사용하는 확률 분포는 베타 분포이다. MAB와의 가장 큰 차이점은 각각의 액션의 reward 추정치를 확률이 아닌 확률 분포를 사용하는 것이다. 베타 분포(Beta Distribution) 두 개의 양의 변수 , 로 표현할 수 있는 확률 분포이며, 0과 1 사이의 값을 갖는다. 여기서 는 , 에 의해 ..
2022.03.19