在线学习方法综述:汤普森抽样和其他方法

doi:10.15960/j.cnki.issn.1007-6093.2017.04.006

CORC > 上海财经大学 > 上海财经大学

	在线学习方法综述:汤普森抽样和其他方法
	何斯迈 ; 金羽佳 ; 王华 ; 葛冬冬
刊名	运筹学学报
	2017-12-15
期号	2017年04期页码:84-102
关键词	在线学习多摇臂赌博机汤普森抽样信心上界算法情境多摇臂赌博机在线凸优化
ISSN号	1007-6093
DOI	10.15960/j.cnki.issn.1007-6093.2017.04.006
英文摘要	本文尝试对在线学习领域的最新研究成果、相关主要理论和算法进行综述.在线学习的内容非常广博,本文希望能够为读者介绍其中一些基本的算法和想法,从最经典的理论模型和算法设计开始,对在线学习的发展情况作一个一般性的介绍.首先,以经典的在线优化模型——多摇臂赌博机问题为例,引入了汤普森抽样算法和信心上界算法,分析、展示了它们的基本思路和最新成果,并进一步讨论了汤普森抽样算法在更复杂的在线学习问题中的变式和应用.本文同时对在线凸优化算法做了初步探讨,它也是解决多摇臂赌博机问题和其他许多在线学习的应用问题时一种强有力的工具.
URL标识	查看原文
语种	中文
内容类型	期刊论文
源URL	[http://10.2.47.112/handle/2XS4QKH4/12014]
专题	上海财经大学
作者单位	1.上海财经大学信息管理与工程学院 2.复旦大学数学科学学院 3.上海财经大学交叉科学研究院
推荐引用方式 GB/T 7714	何斯迈,金羽佳,王华,等. 在线学习方法综述:汤普森抽样和其他方法[J]. 运筹学学报,2017(2017年04期):84-102.
APA	何斯迈,金羽佳,王华,&葛冬冬.(2017).在线学习方法综述:汤普森抽样和其他方法.运筹学学报(2017年04期),84-102.
MLA	何斯迈,et al."在线学习方法综述:汤普森抽样和其他方法".运筹学学报 .2017年04期(2017):84-102.