階層型視覚的コモンセンスを考慮した動画質問応答

考虑分层视觉常识的视频问答

基本信息

批准号：
22KJ2914
负责人：
綱島秀樹
金额：
$ 1.09万
依托单位：
Waseda University
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2023
资助国家：
日本
起止时间：
2023-03-08 至 2024-03-31
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-22KJ2914/
关键词：
視覚的コモンセンス常識動画質問応答幼児未来予測

项目摘要

本研究課題の幼児の一人称視点動画からの視覚的コモンセンス獲得において、2022年度開始時は幼児の一人称視点動画の詳細な分析を行った。しかしながら、幼児の一人称視点動画は撮影条件や視点などが統一されておらず、機械学習の文脈において未来予測をすることは非常に困難であることが明らかとなった。そこで、近年深層学習において技術的転換点となったTransformerを用いてインタラクションを伴う行動計画タスク自体から初期的視覚的コモンセンスを創発させることができないかに取り組んだ。Transformerの自己注意機構を可視化した結果として、視覚的コモンセンスのPやFについての初期的視覚コモンセンスの獲得の傾向は見られたが、CとIとUについての創発は見られなかった。それゆえ、タスク自体の見直しを行うことにした。次に取り組んだタスクとして物理現象を伴うパズルであるPHYREを用いて、視覚的コモンセンスFPICU全ての創発を行うエージェントを開発することに取り組んだ。FPICUを全て創発させるために、FPICUを統一的に考慮する定式化を数学的に行い、実験を行った。しかしながら、因果性であるCの学習が困難を極め、Cの関連する技術であるVAEや統計的因果推論についてのサーベイを行った。結果として、2022年度はタスクの2度の見直しとFPICUの学習困難性のために論文出版を行うことはできなかった。しかしながら、近年登場したChatGPTがIとUを備えている可能性があり、ChatGPTを活用して視覚的コモンセンスを統一的に考慮するための初期的実験を開始した。

为了从该研究主题中的第一人称视频中获取视觉常识，我们对2022财政年度开始时对幼儿的第一人称视频进行了详细的分析。但是，已经显示，在机器学习的背景下，幼儿的射击条件和观点并不统一，并且很难预测未来的未来。因此，我们研究了是否可以使用Transformer使用Transformer来创建最初的视觉常识，涉及互动的行动计划任务本身，这已成为近年来深度学习的技术转折点。可视化变压器的自我注意事项机制显示出对视觉常识的p和f的初步获取的趋势，但C，I和U。因此，我决定审查任务本身。接下来，我们致力于开发一种可以使用Phyre（一种具有物理现象的难题）来执行所有视觉常识FPICUS出现的代理。为了使所有fpicus栩栩如生，我们进行了数学公式，该公式均匀地考虑了FPICUS并进行了实验。但是，因果关系的学习C变得非常困难，我们对VAE进行了一项调查，该调查与C和统计因果推断有关。结果，由于两次任务审查以及在FPICU学习的困难，因此无法发表论文。但是，最近出现的Chatgpt可能有一个I和U，我们已经开始了一个初步的实验，以利用Chatgpt统一考虑视觉常识。

项目成果

期刊论文数量（5）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

視覚情報に用いたタスク指向型対話における人間の返答に対する間違い指摘の検討

利用视觉信息指出任务导向对话中人类反应错误的研究

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
Kazuki Kohyama;Takahiro Tsukahara;Keiichi Tamai;Masaki Sano;荒川深映（この発表者と綱島は共同第一著者）;大島遼祐（この発表者と綱島は共同著者）
通讯作者：
大島遼祐（この発表者と綱島は共同著者）

視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討

利用视觉信息指出任务导向对话中人类反应错误的研究

DOI：
发表时间：
期刊：
影响因子：
0
作者：
通讯作者：

Memory Efficient Diffusion Probabilistic Models via Patch-based Generation

DOI：
10.48550/arxiv.2304.07087
发表时间：
2023-04
期刊：
ArXiv
影响因子：
0
作者：
Shinei Arakawa;Hideki Tsunashima;Daichi Horita;Keitaro Tanaka;S. Morishima
通讯作者：
Shinei Arakawa;Hideki Tsunashima;Daichi Horita;Keitaro Tanaka;S. Morishima

複数解像度で画像を生成可能な拡散確率モデル

可以生成多种分辨率图像的扩散随机模型

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
Kazuki Kohyama;Takahiro Tsukahara;Keiichi Tamai;Masaki Sano;荒川深映（この発表者と綱島は共同第一著者）
通讯作者：
荒川深映（この発表者と綱島は共同第一著者）

視覚情報に基づくタスク指向型対話における人間の返答に対する間違い指摘の検討

基于视觉信息的任务导向对话中人类反应错误的指出研究

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
Kazuki Kohyama;Takahiro Tsukahara;Keiichi Tamai;Masaki Sano;荒川深映（この発表者と綱島は共同第一著者）;大島遼祐（この発表者と綱島は共同著者）;大島遼祐（この発表者と綱島は共同著者）
通讯作者：
大島遼祐（この発表者と綱島は共同著者）