三次元空間情報を用いた実世界質問応答基盤の創出

使用 3D 空间信息创建现实世界问答平台

基本信息

项目摘要

本研究では、申請者がこれまで取り組んできた二次元動画像の視覚的質問応答手法と近年発展が著しい三次元空間認識技術を統合することで、三次元空間情報について自然言語を介して問い合わせできる三次元空間質問応答技術を確立する。複数の屋内環境をRGB-Dスキャンした三次元空間情報の質問応答データセットを作成し、従来の2D-VQAとの比較検証を行い、実空間の意味的・立体的理解が必要な問い合わせに三次元空間データが有用であることを実証する。今年度は以下の項目に取り組んだ。①三次元空間質問応答データセットの作成:三次元空間質問応答モデルの学習と評価を行うため、三次元空間質問応答データセットを作成した。質問応答データセットの作成は、質問回答の自動生成と手動によるアノテーションのハイブリッド形式を採用した。三次元空間情報のデータとしては、屋内環境をRGB-DスキャンしたデータセットScanNetを用いた。実空間のデータに対して手動だけで質問を作成すると、比較的簡単な質問が作成されてしまう問題があるため、ScanNetの環境内にある各物体に言語的記述を施したScanReferのデータに質問回答生成モデルを適用することで、三次元空間中の物体に対する質問とその解答を自動生成した。②三次元物体認識技術を用いた三次元空間質問応答モデルの開発:実空間をRGB-Dスキャンした三次元空間情報とその空間に関する自由形式の質問を入力とし、その質問と三次元空間データ(点群データ)に対応する回答を予測する視覚的質問応答モデルを開発した。視覚的質問応答のデータに三次元物体認識の結果を用いることで、物体の位置関係や形状を考慮しつつ、オクルージョンへの頑健性を高め、カメラ視点に左右されずに物体の同一性を保証した視覚的質問応答を可能とした。
本研究通过将申请人目前正在研究的2D视频图像视觉问答方法与近年来快速发展的3D空间识别技术相结合,可以通过自然语言查询3D空间信息. 建立三维空间问答技术。我们通过扫描 RGB-D 中的多个室内环境创建了 3D 空间信息的问答数据集,并将其与传统的 2D-VQA 进行比较,证明原始空间数据是有用的。今年,我们做了以下几方面的工作。 ① 3D空间问答数据集的创建:为了学习和评估3D空间问答模型,我们创建了3D空间问答数据集。为了创建问答数据集,我们采用了自动问答生成和手动注释的混合格式。作为三维空间信息数据,我们使用数据集ScanNet,它是室内环境的RGB-D扫描。如果您手动为真实空间数据创建问题,最终可能会创建相对简单的问题,因此我们为 ScanRefer 数据创建了问题,该数据具有 ScanNet 环境中每个对象的语言描述。通过应用答案生成模型,我们自动生成了问题。以及三维空间中物体的答案。 ②利用3D物体识别技术开发3D空间问答模型:输入通过真实空间的RGB-D扫描获得的3D空间信息和关于该空间的自由形式问题,并使用问题和3D空间数据(我们开发了视觉问题)回答模型,预测与点云数据相对应的答案。通过使用视觉问答数据中的 3D 对象识别结果,我们在考虑对象的位置关系和形状的同时提高了对遮挡的鲁棒性,并且无论摄像机视角如何,都可以保证对象的身份,从而实现了视觉问答。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
ScanQA: 3D Question Answering for Spatial Scene Understanding
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

宮西 大樹其他文献

宮西 大樹的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('宮西 大樹', 18)}}的其他基金

ネットワークの成長過程に基づくスケーラブルな時間付き特徴生成の実現
基于网络生长过程的可扩展时间特征生成的实现
  • 批准号:
    12J02449
  • 财政年份:
    2012
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

ナラティブはどのようにして生じるのか?-自然言語処理技術を用いた検討-
叙事是如何出现的?
  • 批准号:
    24K16786
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
言語流暢性課題の定性的分析方法の構築:語彙特性と自然言語処理の応用
构建语言流畅性任务的定性分析方法:词汇特征和自然语言处理的应用
  • 批准号:
    24K10484
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
自然言語処理に最適な語彙と分割の仕方を自動で獲得する人工知能の創出
创建自动获取自然语言处理最佳词汇和切分方法的人工智能
  • 批准号:
    24K20852
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
能動学習を用いた、放射線科所見文重要度推定用自然言語処理システムの開発
开发自然语言处理系统,使用主动学习来评估放射学结果的重要性
  • 批准号:
    24K18797
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
自然言語処理技術を用いた食物アレルゲン性予測システム構築
利用自然语言处理技术构建食物过敏性预测系统
  • 批准号:
    24K01707
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了