'LinUCB' 태그의 글 목록

더 이상 tistory 블로그를 운영하지 않습니다. glanceyes.github.io에서 새롭게 시작합니다.

새소식

LinUCB

Thompson Sampling이란? 주어진 $k$ 개의 액션에 해당하는 reward의 추정치 $Q_{t} (a)$ 가 확률 분포를 따른다고 가정하는 것이다. 이때 많이 사용하는 확률 분포는 베타 분포이다. MAB와의 가장 큰 차이점은 각각의 액션의 reward 추정치를 확률이 아닌 확률 분포를 사용하는 것이다. 베타 분포(Beta Distribution) 두 개의 양의 변수 $α$ , $β$ 로 표현할 수 있는 확률 분포이며, 0과 1 사이의 값을 갖는다. $B e t a (x, α, β) = \frac{1}{B (α, β)} x^{α - 1} (1 - x)^{β - 1}$ 여기서 $B (α, β)$ 는 $α$ , $β$ 에 의해 ..

MAB(Multi-Armed-Bandit)를 활용한 Thompson Sampling과 LinUCB(Linear Upper Confidence Bound)
Thompson Sampling이란? 주어진 $k$ 개의 액션에 해당하는 reward의 추정치 $Q_{t} (a)$ 가 확률 분포를 따른다고 가정하는 것이다. 이때 많이 사용하는 확률 분포는 베타 분포이다. MAB와의 가장 큰 차이점은 각각의 액션의 reward 추정치를 확률이 아닌 확률 분포를 사용하는 것이다. 베타 분포(Beta Distribution) 두 개의 양의 변수 $α$ , $β$ 로 표현할 수 있는 확률 분포이며, 0과 1 사이의 값을 갖는다. $B e t a (x, α, β) = \frac{1}{B (α, β)} x^{α - 1} (1 - x)^{β - 1}$ 여기서 $B (α, β)$ 는 $α$ , $β$ 에 의해 ..
2022.03.19

1

Receive promotional offers?

글 주소를 복사했습니다

부족한 글 끝까지 읽어주셔서 감사합니다.
보충할 내용이 있으면 언제든지 댓글 남겨주세요.

티스토리툴바