Creation of datasets that combine 3D environmental and textual information

创建结合 3D 环境和文本信息的数据集

基本信息

  • 批准号:
    22K17983
  • 负责人:
  • 金额:
    $ 2.91万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

2022年度は、実世界の情報と自然言語テキストとを対応付けて理解する技術について研究を進めた。特にテキストの質問に即して3次元の環境情報を理解して動作するエージェントのための学習基盤を整備する研究を行った。既存の3次元理解では、3次元的な情報を、質疑応答を用いてテキストと対応付けるための大規模なデータセットが存在しないことにより、深層学習などの手法によるテキストに対応付けた3次元理解は困難な課題であった。本研究では実世界をテキストに対応付けて認識するデータセットを作成した。実世界のスキャンから作られた3次元シーンデータセットであるScanNetに“Where is the blue suitcase laid?”のようにシーンに対応した質問を作成し、室内環境から物体を探索して質問に解答するための大規模なデータセットであるScanQAデータセットおよび基本となる点群ニューラルネットワークモデルを作成した。この貢献により、既存の画像質問応答 (VQA) とは異なり、2D画像の中に写っていない物体についても、環境中から探索するようなモデルを作成することができるようになった。この成果は画像系のトップ国際会議CVPR2022に採択され口頭発表を行った。この他、キッチン環境にて、「(具材を)切る」「(複数の具材を)混ぜる」といった個別の調理動作により、対象となる具材がどのような変化を受けるかを、動画およびレシピテキストと対応付けて学習するためのデータセットを作成し、言語系の国際会議COLING2022に採択された。このように復数の分野での国際会議に採択されるなど、実世界の情報と自然言語テキストとを対応付けて理解する技術の研究は当初の想定を大きく超えて前進している。
在2022财年,我们对理解和理解现实世界和自然语言文本中信息的技术进行了研究。特别是,我们进行了研究,以根据文本问题了解三维环境信息来为代理人开发一个学习基础。根据现有的3D理解,没有大型数据集用于3D信息,可以使用问题和 - 答案会话对文本进行响应,并且对支持教科书(例如深度学习)的教科书的3D理解是3D的理解艰巨的任务。在这项研究中,我们创建了一个数据集,将现实世界识别为教科书。创建与场景兼容的问题,例如“蓝色手提箱在哪里放置?以及基本的点组神经网络模型。与现有的图像问题响应(VQA)不同,现在可以创建来自环境中2D图像中未显示的模型。该结果由图像系统的国际顶级CVPR2022采用,并进行了口头介绍。此外,在厨房环境中,这是一个视频和视频,介绍了如何通过“(成分)”和“混合(多种成分)”等单个烹饪运动来收到目标成分。带有食谱文本,并被国际会议Coling2022通过。通过这种方式,对了解和理解世界上信息和自然语言文本的技术的研究,例如在恢复领域的国际会议中采用,已经超越了最初的假设。

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
QuIC-360°: 360°画像に対するクエリ指向画像説明文生成のためのデータセット構築
QuIC-360°:用于生成 360° 图像的面向查询的图像描述的数据集构建
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    前田航希;栗田修平;宮西大樹
  • 通讯作者:
    宮西大樹
terative Span Selection: Self-Emergence of Resolving Orders in Semantic Role Labeling
迭代跨度选择:语义角色标注中解决顺序的自生
ARKitSceneRefer: 3D屋内シーンでの参照表現による小物の位置特定
ARKitSceneRefer:在 3D 室内场景中使用参考表示来定位小物体
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    加藤駿弥;栗田修平;Chenhui Chu;黒橋禎夫
  • 通讯作者:
    黒橋禎夫
Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows
  • DOI:
    10.48550/arxiv.2209.05840
  • 发表时间:
    2022-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Keisuke Shirai;Atsushi Hashimoto;Taichi Nishimura;Hirotaka Kameko;Shuhei Kurita;Y. Ushiku;Shinsuke Mori
  • 通讯作者:
    Keisuke Shirai;Atsushi Hashimoto;Taichi Nishimura;Hirotaka Kameko;Shuhei Kurita;Y. Ushiku;Shinsuke Mori
ScanQA: 3D Question Answering for Spatial Scene Understanding
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

栗田 修平其他文献

栗田 修平的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('栗田 修平', 18)}}的其他基金

Comprehension and application of the 3D environments through language modeling grounded to the real world
通过基于现实世界的语言建模来理解和应用 3D 环境
  • 批准号:
    22KK0184
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Fund for the Promotion of Joint International Research (Fostering Joint International Research (A))
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了