物理的演繹モデルと帰納的深層学習の融合によるしなやかな画像理解

通过物理演绎模型和归纳深度学习的融合灵活的图像理解

基本信息

批准号：
21H04893
负责人：
西野恒
金额：
$ 26.71万
依托单位：
Kyoto University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (A)
财政年份：
2021
资助国家：
日本
起止时间：
2021-04-05 至 2026-03-31
项目状态：
未结题

项目摘要

今年度は、昨年度の精緻な3次元形状復元に関する研究をさらに発展させ、光源状況の推定も同様に解析的な生成モデルを仮定しつつ、帰納的学習によって、反射特性を３次元形状とともに同時推定する手法について研究を進めた。特にマルチビューステレオと呼ばれる、複数枚の画像から形状復元をおこなう手法に着目し、従来仮定される拡散反射特性にとどまらない、さまざまな表面反射をおこなう物体に関して、形状とともに反射特性を求める手法を導出した。これは、単一の画像から物体表面の法線を深層学習モデルによって推定し、それらを物体表面の特徴量として新たなマルチビューステレオ法を構成することによって実現した。法線を視点不変の特徴量としてコストボリュームを構築し、視点間対応および3次元座標を大域的な最適解として求める本手法は新規性が高く、様々な反射特性の物体表面を正確に復元できることを実証した。また、特に自動運転等において重要となる道路光景の素材認識に関する研究も進めた。素材に関する視覚的情報を、各画素と近傍におけるテクスチャを代表とする局所的特徴量だけではなく、それらの画素がどういった物体を構成しているか、またそれらの物体間の画像全体における大局的位置関係を考慮した新たな深層学習モデルを導出し、正確に各画素の素材を認識できることを示した。本研究も極めてノイジーな解空間における大域的な最適解を求める手法を確立するものであり、前述の成果とともに、計画された研究目標を達成するものである。

今年，我们进一步开发了对去年精确的3D形状恢复的研究，并在估计估计光源状况的分析生成模型的同时，我们对通过归纳性学习的同时估算反射特性以及三维形状进行了研究。特别是，我们专注于一种称为多视图立体声的方法，该方法涉及从多个图像恢复形状，并得出了一种确定对物体的形状和反射特性的方法，这些对象的形状和反射性能执行各种表面反射，而不仅仅是过去假设的弥漫性反射特性。这是通过使用深度学习模型从单个图像从单个图像估算对象表面的正态来实现的，并将它们用作对象表面的特征数量来构建新的多视图立体声方法。该方法将正态用作视点不变特征的特征值，并找到访谈对应关系和3D坐标，因为全局最佳解决方案是高度新颖的，并证明可以准确恢复具有各种反射特性的对象表面的表面。我们还研究了对道路场景材料的认可，这在自动驾驶中尤其重要。有关材料的视觉信息不仅是局部特征，例如每个像素和附近的纹理，而且还会得出一个新的深度学习模型，该模型考虑了这些像素构成的对象，以及图像上对象之间的全局位置关系，并表明每个像素的材料都可以准确地识别。这项研究还建立了一种方法，可以在极其嘈杂的解决方案空间中找到全球最佳解决方案，并且与上述结果一起实现了计划的研究目标。