Skip to content

bandit

https://chuansongme.com/n/362337751839

Thompson sampling

beta分布,参数\alpha,\beta

当个体的样本数据很小时,使用总体的样本数据作为个体的初始值 例如n个棒球运动员共击球10000次,共击中2700次 当有一个新的棒球运动员出现时, 其共击球5次,共集中2次, 我们认为这个棒球运动员的初始状态为棒球运动员的平均水平, 因此可以当做该棒球运动员共击球10005次,共击中2702次 当这个新的棒球运动员数据足够多时,

Upper Confidence Bound