Scholar2Vec: 研究者の多様な活動情報を埋め込める深層潜在空間の構築

Scholar2Vec:构建深层潜在空间,可以嵌入研究人员多样化活动的信息

基本信息

  • 批准号:
    20H04484
  • 负责人:
  • 金额:
    $ 11.56万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

本研究の目的は、ビッグデータ化の進む学術情報から研究内容の特徴軸をデータドリブンに発見し、個々の研究者の専門興味を多元的に表現する技術を構築することである。具体的には、大規模論文集合に高度な意味解析を導入し、研究者の多様な活動情報を埋め込める深層潜在空間を構築する。これにより、研究活動情報に対し固定次元ベクトルを出力するモデルを構築する。2022年度は研究代表者の休業に伴い研究を一時中断したため、当初の研究期間を1年延長することとなった。研究再開後は研究者埋め込みの算出方法について検討と実験を進めた。並行してインターネット上の研究者情報を大規模収集する手法を構築した。ウェブページのカテゴリ分類手法を導入し、学術データベースに収録されていない研究業績を補うことを試みた。以上の内容は2023年度に発表予定である。研究成果情報から埋め込みを構築するにあたり、学術ドメインに特化した日本語のモデルが必要であり、和文論文抄録を用いて事前訓練モデルを構築した。具体的には、テキスト分類などの利用を想定した事前訓練済みエンコーダモデルと、テキスト生成などの利用を想定した事前訓練済みエンコーダ・デコーダモデルをそれぞれ用意した。文分類、文対分類、ヘッドライン生成モデルはウェブ上で公開済みである。モデルの応用として、本研究課題により得られた知見は様々なウェブデータの学習に生かしており、その一例として動画プラットフォームに関する文書集合を用いてBERTを事前訓練し、下流タスクにおける性能を評価した。この成果は2023年度に発表予定である。
本研究的目的是以数据驱动的方式,从日益转化为大数据的学术信息中发现研究内容的特征轴,并构建一种多维表达个体研究人员专业兴趣的技术。具体来说,我们将向大量论文引入先进的语义分析,并构建一个深层的潜在空间,可以嵌入研究人员不同活动的信息。这创建了一个输出研究活动信息的固定维度向量的模型。 2022年,由于主要研究者不在,研究暂时停止,因此原研究期限延长了一年。恢复研究后,我们对如何计算研究者嵌入进行了研究和实验。同时,我们开发了一种在互联网上大规模收集研究人员信息的方法。我们引入了网页分类的方法,并尝试补充学术数据库中未收录的研究成果。上述内容预计于2023年公布。为了从研究结果信息构建嵌入,我们需要一个专门针对学术领域的日语模型,因此我们使用日语论文摘要构建了一个预训练模型。具体来说,我们准备了一个预训练的编码器模型,用于文本分类等,以及一个预训练的编码器/解码器模型,用于文本生成等。句子分类、句子对分类和标题生成模型已经在网络上发布。作为该模型的应用,通过该研究项目获得的知识用于学习各种网络数据。例如,使用与视频平台相关的文档集对 BERT 进行预训练,并评估其在下游任务中的性能。结果预计于 2023 年公布。

项目成果

期刊论文数量(15)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A Japanese Masked Language Model for Academic Domain
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hiroki Yamauchi;Tomoyuki Kajiwara;Marie Katsurai;Ikki Ohmukai;Takashi Ninomiya
  • 通讯作者:
    Hiroki Yamauchi;Tomoyuki Kajiwara;Marie Katsurai;Ikki Ohmukai;Takashi Ninomiya
SolutionTailor: Scientific Paper Recommendation Based on Fine-Grained Abstract Analysis
SolutionTailor:基于细粒度摘要分析的科技论文推荐
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tetsuya Takahashi;Marie Katsurai
  • 通讯作者:
    Marie Katsurai
University of Kentucky(米国)
肯塔基大学(美国)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Adoption of Data Mining Methods in the Discipline of Library and Information Science
  • DOI:
    10.6182/jlis.202106_19(1).001
  • 发表时间:
    2021-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Marie Katsurai;Soohyung Joo
  • 通讯作者:
    Marie Katsurai;Soohyung Joo
Multilingual author matching across different academic databases: a case study on KAKEN, DBLP, and PubMed
  • DOI:
    10.1007/s11192-020-03861-3
  • 发表时间:
    2021-02
  • 期刊:
  • 影响因子:
    3.9
  • 作者:
    Yuto Chikazawa;Marie Katsurai;I. Ohmukai
  • 通讯作者:
    Yuto Chikazawa;Marie Katsurai;I. Ohmukai
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

桂井 麻里衣其他文献

エントレインメントスコアを用いた応答リランキングとその自動評価
使用夹带分数进行响应重排序及其自动评估
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    金崎 翔大;河野 誠也;湯口 彰重;桂井 麻里衣;吉野 幸一郎
  • 通讯作者:
    吉野 幸一郎
学術データに基づく研究者の特徴表現
基于学术数据的研究人员特征表征
対話行為予測とエントレインメント予測に基づいたマルチモーダル対話システム
基于对话行为预测和夹带预测的多模态对话系统
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    金崎 翔大;渡邉 寛大;河野 誠也;湯口 彰重;桂井 麻里衣;吉野 幸一郎
  • 通讯作者:
    吉野 幸一郎
Diversification of scholarly communication: Transformation of refereed journals’ four key functions
学术传播多元化:参考期刊四大关键功能的转变
エントレインメント予測に基づいたニューラル雑談対話モデルの応答リランキング
基于夹带预测的神经闲聊交互模型的响应重排
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    金崎 翔大;河野 誠也;湯口 彰重;桂井 麻里衣;吉野 幸一郎
  • 通讯作者:
    吉野 幸一郎

桂井 麻里衣的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('桂井 麻里衣', 18)}}的其他基金

Scholar2Vec: 研究者の多様な活動情報を埋め込める深層潜在空間の構築
Scholar2Vec:构建深层潜在空间,可以嵌入研究人员多样化活动的信息
  • 批准号:
    23K20410
  • 财政年份:
    2024
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
マルチメディアデータを情報源とした時系列概念ネットワークの構築とその応用
以多媒体数据为信息源的时序概念网络构建及其应用
  • 批准号:
    13J01688
  • 财政年份:
    2013
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

情報検索対話における情報仲介者の対話機能のモデル化とその応用に関する研究
信息搜索对话中信息中介对话功能建模及其应用研究
  • 批准号:
    20J14823
  • 财政年份:
    2020
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Elucidation of accessible communication style for individuals on Autism Spectrum based on tojisha-kenkyu (participatory research)
基于tojisha-kenkyu(参与式研究)阐明自闭症谱系个体的无障碍沟通方式
  • 批准号:
    15K01453
  • 财政年份:
    2015
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Mining the customer preferences from online agricultural product reviews
从农产品在线评论中挖掘顾客偏好
  • 批准号:
    26450370
  • 财政年份:
    2014
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
非英語母語話者作文に対する頑健な解析手法と英語論文自動添削への応用に関する研究
非英语母语作文稳健分析方法研究及其在英语试卷自动批改中的应用
  • 批准号:
    13J09645
  • 财政年份:
    2013
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
大規模なコーパスを用いた機械学習による名詞句の項構造解析
使用大规模语料库使用机器学习对名词短语进行术语结构分析
  • 批准号:
    08J09545
  • 财政年份:
    2008
  • 资助金额:
    $ 11.56万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了