多腕バンディット問題における最適戦略の構成と発展
多臂老虎机问题最优策略的构建和发展
基本信息
- 批准号:25880006
- 负责人:
- 金额:$ 1.58万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Research Activity Start-up
- 财政年份:2013
- 资助国家:日本
- 起止时间:2013-08-30 至 2015-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究は,知識の探索と活用のジレンマをモデル化したものである多腕バンディット問題において,達成可能な効率の理論限界を探り,またその理論限界を達成する戦略を具体的に構成することを目標に行った.この問題は古くから知られており,特に近年ではウェブ上の広告表示やネットワークルーティングといった問題に直接応用できることから盛んに研究されているが,一方,従来研究で提案された戦略でその最適性が保証されているのは一部の非常に単純な確率分布モデルに限られていた.そこで本年度の研究においては,報酬のサポートの下限のみが既知という極めて一般的なノンパラメトリックモデルにおける理論限界を導出し,さらにそれを達成する戦略の提案を行った.これまでに理論限界の達成可能性が知られていたのは確率分布のパラメータ空間が1次元あるいはコンパクトな場合に限られており,それらの手法を無限次元かつ非コンパクトである今回のモデルに直接適用するのは困難であったが,本研究ではダイバージェンス最小化の双対問題を経由して1次元モデルに近い問題への帰着を行うことにより証明を行った.さらに,従来示されていた漸近最適戦略は,プレイ回数nに対する損失のうちO(log n)の項までの意味では最適であったが,それより高次の項がo(log n)ではあるものの無限大に発散するものであった.一方,この高次項はO(1)とできることが様々な研究から実験的には示唆されており,この点で従来の理論研究と実験の間にはギャップがあった.そこで,本研究では確率過程の理論のうちマルチンゲールの停止時刻に関する結果を応用することで,O(1)の損失が達成可能であることを新たに示した.この研究の結果は機械学習の論文誌Journal of Machine Learning Researchに現在投稿中である.
本研究探讨了多臂老虎机问题中可实现效率的理论极限,对知识探索和利用的困境进行了建模,并具体构建了实现理论极限的策略。这个问题早已为人所知,并且近年来得到了积极的研究,因为它可以直接应用于网络上的广告显示和网络路由等问题。保证仅限于一些非常简单的概率分布模型。因此,在今年的研究中,我们推导了一种极其通用的非参数模型(仅已知奖励支持的下限)的理论极限,并进一步提出了实现这些模型的策略。到目前为止,只有当概率分布的参数空间为一维或紧致时,才知道实现理论极限的可行性,并且这些方法可以直接应用于当前的无限维和非连续模型。尽管它很难应用,但在本研究中,我们通过散度最小化的对偶问题将其简化为接近一维模型的问题来证明它。此外,之前提出的渐近最优策略对于播放次数 n 而言,在损失高达 O(log n) 方面是最优的,但高阶项是 o(log n) ,它是趋于无穷大的。另一方面,各种研究通过实验表明这个高阶项可以是O(1),在这方面传统的理论研究和实验之间存在差距。因此,在这项研究中,我们新表明,通过应用随机过程理论中鞅停止时间的结果,可以实现 O(1) 的损失。这项研究的结果目前正在提交给《机器学习研究杂志》。
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
知識の探索と活用のジレンマと多腕バンディット問題
知识探索与利用的困境与多臂老虎机问题
- DOI:
- 发表时间:2013
- 期刊:
- 影响因子:0
- 作者:Mianxiong Dong;Kaoru Ota;and Motoki Sakai;本多淳也
- 通讯作者:本多淳也
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
本多 淳也其他文献
Brittle-ductile transition in porous tuff breccia from the Miocene Anamizu Formation, Noto Peninsula: constrains from tri-axial deformation experiments
能登半岛中新世穴水组多孔凝灰岩角砾岩的脆性转变:来自三轴变形实验的约束
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
田畑 公次;中村 篤祥;本多 淳也;小松崎 民樹;Kazuo Mizoguchi,Sachiko Iizuka;Tamiki Komatsuzaki;Shin-ichi Uehara,Takahiro Iida,Kazuo Mizoguchi - 通讯作者:
Shin-ichi Uehara,Takahiro Iida,Kazuo Mizoguchi
The relationship between mechanical behaviors and surface roughness of submeter-sized granite sample in bi-axial friction experiments
亚米级花岗岩试样双轴摩擦力学行为与表面粗糙度的关系
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
田畑 公次;中村 篤祥;本多 淳也;小松崎 民樹;Kazuo Mizoguchi,Sachiko Iizuka - 通讯作者:
Kazuo Mizoguchi,Sachiko Iizuka
本多 淳也的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('本多 淳也', 18)}}的其他基金
バンディット問題における最適性達成のためのランダム方策の発展と解析
开发和分析随机策略以实现老虎机问题的最优性
- 批准号:
21K11747 - 财政年份:2021
- 资助金额:
$ 1.58万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
数理最適化手法に基づく符号化・復号化手法の理論解析および実用化に関する研究
基于数学优化方法的编解码方法理论分析与实际应用研究
- 批准号:
11J06131 - 财政年份:2011
- 资助金额:
$ 1.58万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
肝臓内酸素動態を含む透析低血圧発症予知モデルの構築:統計・機械学習分析による解析
构建预测透析低血压发作(包括肝内氧动态)的模型:使用统计和机器学习分析进行分析
- 批准号:
24K15796 - 财政年份:2024
- 资助金额:
$ 1.58万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
多様体上の統計学、コピュラ、時系列解析に関する研究
流形、copula 和时间序列分析统计研究
- 批准号:
24K14858 - 财政年份:2024
- 资助金额:
$ 1.58万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
REU Site: DRUMS Directed Research for Undergraduates in Math and Statistics
REU 网站:DRUMS 为数学和统计学本科生指导的研究
- 批准号:
2349611 - 财政年份:2024
- 资助金额:
$ 1.58万 - 项目类别:
Continuing Grant
Conference: Theory and Foundations of Statistics in the Era of Big Data
会议:大数据时代的统计学理论与基础
- 批准号:
2403813 - 财政年份:2024
- 资助金额:
$ 1.58万 - 项目类别:
Standard Grant
学習の躓きを診断し克服するための統計学的方法:デジタル問題集の基盤開発と実践
诊断和克服学习障碍的统计方法:数字问题集的基本开发和实施
- 批准号:
23K20759 - 财政年份:2024
- 资助金额:
$ 1.58万 - 项目类别:
Grant-in-Aid for Scientific Research (B)