制約充足確率に基づく強化学習による組合せ最適化問題の解法に関する基礎的研究

基于约束满足概率的强化学习求解组合优化问题的基础研究

基本信息

  • 批准号:
    22K12158
  • 负责人:
  • 金额:
    $ 2.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

2022年度は、深層強化学習を実際の物流業務における配送時間制約付き配車計画問題に適用するための準備として、巡回セールスマン問題 (TSP) を深層強化学習を用いて解く手法おける報酬の改善方法について検討した。また、制約充足確率に拡張する予定である成功確率に基づく安全な強化学習の手法を深層強化学習に拡張する方法について検討した。実際の物流業務においては、複数の配送先が非常に近い位置にあることがある。配送先が離れている場合には経路を変更すると経路長が大きく変わるが、配送先が非常に近い位置にある場合には経路を変更しても経路長がほとんど変わらない。先行研究において提案された最短経路長を新しく作成した経路長の差分(改善分)を報酬とする手法においては、このような問題に対しては報酬が非常に小さくなり、学習が進まなくなってしまう。そこで本研究では、平方根を用いた報酬関数を導入することによって、1より小さい報酬を増加させるとともに1より大きい報酬を減少させる方法を開発した。この手法を実際の運送会社の配送経路探索問題に適用し、配送先が非常に近い位置に密集している問題において有効であることを確認した。この成果については、2023年6月に熊本で開催される2023年度人工知能学会全国大会(第37回)において発表する予定である。また、我々がこれまでに開発した成功確率に基づく安全な強化学習の手法 EQ を深層強化学習の手法である DQN をベースとして Variable Autoencoder (VAE) を用いて成功し続ける確率を推定する手法 DEQN に拡張した。この成果については、2022年度6月に京都で開催された2022年度人工知能学会全国大会(第36回)において発表した。
在2022财年,我们讨论了通过解决旅行推销员问题(TSP)提高奖励的方法,以准备在实际物流操作中将深入的强化学习应用于交付时间有限的乘车骑车计划问题。我们还研究了如何基于成功概率扩展安全加强学习方法,该方法计划扩展到约束履行概率,深入强化学习。在实际的物流操作中,多个交付目的地可能非常接近。如果交货目的地距离相距较远,则路线的长度将发生巨大变化,但是如果交货目的地非常接近,即使更改了交货目的地,路线的长度也几乎不会改变。在使用以前研究中提出的最短路径长度新创建的最短路径长度的方法中,使用路径长度的差异(改进)奖励,此类问题的奖励很小,并且学习不会进展。因此,在这项研究中,我们开发了一种通过使用平方根引入奖励函数来增加奖励少于1的方法,并降低了大于1的奖励。该方法应用于实际运输公司的交付路线搜索问题,并确认它在集中在非常近距离的地方的问题中有效。这些结果将在2023年全国人工智能学会(第37届)全国会议上介绍。2023年6月,我们还扩展了EQ,我们已经扩展了EQ,这是一种基于成功概率的安全加强学习方法,到目前为止,我们已经开发了一种deqn,deqn,该方法估算了使用可变自动化方法的成功率(vae deqn),该方法估算了AutoeCododer(vae deqn)的成功率。这些结果在2022年6月在京都举行的2022年全国人工智能学会(36日)上介绍。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
DQNに基づく連続観測空間における安全な強化学習
基于DQN的连续观察空间安全强化学习
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大橋 宥斗;松井 藤五郎;武藤 敦子;森山 甲一;犬塚 信博
  • 通讯作者:
    犬塚 信博
組合せ最適化におけるジャンピングとアテンションを用いたグラフニューラルネットワーク
在组合优化中使用跳跃和注意力的图神经网络
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    グェンフウ バオロン;松井 藤五郎;原 謙介
  • 通讯作者:
    原 謙介
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

松井 藤五郎其他文献

モデル植物の購買履歴からの変異体選択支援システム
基于模型工厂购买历史的变型选择支持系统
POSデータを用いた注文傾向による店舗間の関係分析
使用 POS 数据根据订单趋势分析商店之间的关系
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    安井 彰悟;武藤 敦子;森山 甲一;松井 藤五郎;犬塚 信博
  • 通讯作者:
    犬塚 信博
Multi-Domain HMMsearch : マルチドメインを持つ遠縁なタンパク質のための相同性検索ツール
多域 HMMsearch:具有多个域的远缘相关蛋白质的同源搜索工具
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    瀬下 真吾;賀屋 秀隆;松井 藤五郎;朽津 和幸;大和田 勇人
  • 通讯作者:
    大和田 勇人
HMMプロファイルの類似性に着目した遠縁の相同体検出手法の提案
关注HMM轮廓相似度的远亲同源检测方法的提出
ネットワーク構造を導入したコミュニティ活動モデル
引入网络结构的社区活动模型

松井 藤五郎的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('松井 藤五郎', 18)}}的其他基金

ファイナンスにおける時系列解析のための強化学習に関する基礎的研究
强化学习在金融时间序列分析中的基础研究
  • 批准号:
    21700175
  • 财政年份:
    2009
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了