異種メディア融合に基づく対話型マルチメディア検索技術の構築

基于异构媒体融合的交互式多媒体搜索技术构建

基本信息

批准号：
22KJ0010
负责人：
柳凜太郎
金额：
$ 1.41万
依托单位：
Hokkaido University
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2023
资助国家：
日本
起止时间：
2023-03-08 至 2024-03-31
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-22KJ0010/
关键词：
画像検索質問応答再検索

项目摘要

本年度には，VGG19モデル，ResNetモデルおよびTransformerモデルなどの大規模な深層学習モデルから推定されたデータベース内の画像・映像を効率的に絞り込むことが可能な情報を用いることで，ユーザに問いかけるための質問文を生成し，その回答に基づいて検索順位を再決定する手法の構築を目的としていた．そこで，本年度の初めには，推定された情報を集約して，Visual Question Generationモデルに基づいて処理することで，ユーザに問いかけるための質問文を生成した．その後，生成された質問文に基づいてユーザとの質疑応答を行うことで，目的の画像・映像を絞り込むための情報を取得した．最後に，取得したユーザからの回答に該当する画像・映像が上位となるように検索順位を再決定する．上記により構築した質問文生成モデルに対して，検索システムが必要とする情報をユーザにとって理解しやすい形式の質問文で問い合わせることが可能になることを明らかにした．本年度には，複数の情報を統合的に処理して質問文を生成することが可能なVisual Question Generationモデルの構築に関して，1つの国内会議(第25回画像の認識・理解シンポジウム MIRU 2022)および1つの国際会議( IEEE Global Conference on Consumer Electronics)で発表を行っている．また，上述の研究成果をまとめることで論文誌(IEEE Open Journal of Signal Processing)に採択されている．さらに，第25回画像の認識・理解シンポジウム MIRU 2022では2022 MIRU 学生奨励賞を受賞している．

今年，我们将使用从大型深度学习模型（例如VGG19型号，Resnet模型和变压器）中估算的数据库中有效缩小图像和图像的信息，以便要求用户询问用户。生成一个问题文本并根据答案重新确定搜索排名。因此，在本财政年度开始时，通过基于视觉问题生成模型合并估计的信息和处理来生成一个询问用户的问题句子。之后，我们通过基于生成的问题文本与用户一起执行问题和答案来获取信息来缩小所需图像和图像。最后，确定搜索排名，以便与所获得的用户排名较高的答案相对应的图像 /视频。上面建模的问题文本生成已显示，搜索系统所需的信息可以易于理解的格式进行查询。在这个财政年度，一次国内会议（第25次认可和理解Miru 2022）和1次构建视觉问题生成模型，可以在一个国际会议上宣布多个信息。电子）。 IEEE OPEN信号处理杂志也通过总结了上述研究结果来采用它。此外，第25届认可和理解Miru 2022研讨会获得了2022年MIRU学生鼓励奖。

项目成果

期刊论文数量（0）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

IR Questioner: QA-based Interactive Retrieval System

DOI：
10.1145/3460426.3463577
发表时间：
2021-08
期刊：
Proceedings of the 2021 International Conference on Multimedia Retrieval
影响因子：
0
作者：
Rintaro Yanagi;Ren Togo;Takahiro Ogawa;M. Haseyama
通讯作者：
Rintaro Yanagi;Ren Togo;Takahiro Ogawa;M. Haseyama

ゴム材料開発のための generative adversarial network に基づく配合量および物性からの電子顕微鏡画像の生成に関する一検討

基于生成对抗网络的橡胶材料开发中配合量和物理性质生成电子显微镜图像的研究

DOI：
发表时间：
2022
期刊：
影响因子：
0
作者：
柳凜太郎;藤後廉;前田圭介;小川貴弘;長谷山美紀
通讯作者：
長谷山美紀

Cross-modal Image Retrieval Considering Semantic Relationships with Object Information

DOI：
10.1109/gcce56475.2022.10014358
发表时间：
2022-10
期刊：
2022 IEEE 11th Global Conference on Consumer Electronics (GCCE)
影响因子：
0
作者：
Huaying Zhang;Rintaro Yanagi;Ren Togo;Takahiro Ogawa;M. Haseyama
通讯作者：
Huaying Zhang;Rintaro Yanagi;Ren Togo;Takahiro Ogawa;M. Haseyama

Recallable Question Answering-Based Re-Ranking Considering Semantic Region for Cross-Modal Retrieval

DOI：
10.1109/ojsp.2023.3238280
发表时间：
2023
期刊：
IEEE Open Journal of Signal Processing
影响因子：
2.8
作者：
Rintaro Yanagi;Ren Togo;Takahiro Ogawa;M. Haseyama
通讯作者：
Rintaro Yanagi;Ren Togo;Takahiro Ogawa;M. Haseyama

Interactive Re-ranking via Object Entropy-Guided Question Answering for Cross-Modal Image Retrieval

DOI：
10.1145/3485042
发表时间：
2022-03
期刊：
ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM)
影响因子：
0
作者：
Rintaro Yanagi;Ren Togo;Takahiro Ogawa;M. Haseyama
通讯作者：
Rintaro Yanagi;Ren Togo;Takahiro Ogawa;M. Haseyama