確率的言語モデルによる教育理論の共通知識基盤構築
使用概率语言模型构建教育理论的公共知识库
基本信息
- 批准号:21K02759
- 负责人:
- 金额:$ 2.58万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
2022年度は以下の研究をおこなった。(1) 教育研究コーパス構築 昨年度に引き続き、教育に関する日本語の学術研究論文、科研費の研究課題情報、オープン教材(Open Educational Resources)、書籍情報を収集して、必要な前処理をおこない、テキストデータ(コーパス)の構築をおこなった。前処理には論文PDF等のレイアウト検出およびテキスト抽出、文字の正規化処理、必要な字句訂正が含まれる。(2) 図表からの情報の抽出 昨年度に引き続き、論文PDFから図表(画像を含む)を抽出した上で、そこから変数のテキスト情報を抽出するソフトウェアの開発をおこなった。(3) キーワードの抽出 昨年度に引き続き、各リソースからキーワードを抽出するソフトウェアを開発した。キーワードの同義語を検出するプログラムの開発をおこなった。既存のキーワード抽出手法にはそれぞれ特徴があるため、採用を一つに限らず利用することにした。また、キーワードの集計および視覚化をおこなった。(4) 概念および変数の抽出のための言語モデル構築 学術論文等を入力として、用いられる概念および変数名を抽出するための言語モデルを、BERT系のPretained Modelのファインチューニングによって構築を実験中である。(5) ChatGPTの評価 本研究における昨年度に発表されたChatGPTの評価と本研究課題における可用性について評価をおこなった。ChatGPT/GPT-4は極めて優秀な大規模言語モデルベースのサービスであるが、本研究課題における専門用語(概念)抽出タスクでは精度が十分ではなく、一方で埋め込みベクトル(embeddings)を本研究の成果と組み合わせることは有用であると評価している。
2022年,我们进行了以下研究。 (1)教育研究语料库建设 继去年基础上,我们将收集与教育相关的日语学术研究论文、科学研究资助金研究主题信息、开放教育资料(开放教育资源)和图书信息,执行必要的预处理,并创建数据(语料库)。预处理包括纸质 PDF 的布局检测和文本提取、字符规范化处理以及必要的词汇校正。 (2) 从图表中提取信息 继去年之后,我们开发了从纸质 PDF 中提取图表(包括图像)的软件,然后从中提取可变文本信息。 (3) 关键词提取 继去年之后,我们开发了从每个资源中提取关键词的软件。我们开发了一个程序来检测关键字的同义词。由于现有的每种关键词提取方法都有其自身的特点,因此我们决定使用多种方法。我们还聚合并可视化了关键词。 (4) 构建用于提取概念和变量的语言模型 我们目前正在尝试通过对基于 BERT 的 Pretained Model be 进行微调,构建用于使用学术论文等作为输入来提取概念和变量名称的语言模型。 (5) ChatGPT 的评估 在本研究中,我们评估了去年发布的 ChatGPT 及其对于本研究课题的可用性。尽管 ChatGPT/GPT-4 是一种极其优秀的基于大规模语言模型的服务,但其准确性对于本研究项目中的专业术语(概念)提取任务来说还不够,评估认为将其结合起来是有用的。
项目成果
期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
武田 俊之其他文献
武田 俊之的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似海外基金
Research on a Term management Support System
术语管理支持系统的研究
- 批准号:
24500303 - 财政年份:2012
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Organization of technical terms by adjacent words and its application to technical trend analysis
技术术语的相邻词组织及其在技术趋势分析中的应用
- 批准号:
19700152 - 财政年份:2007
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
A study on adaptive indexing method for dedicated portals
专用门户自适应索引方法研究
- 批准号:
18500093 - 财政年份:2006
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
ルールベース異形認識に基づく専門用語語彙の体系的収集手法の構築
基于规则变体识别的专业术语词汇系统采集方法构建
- 批准号:
16700245 - 财政年份:2004
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
専門用語における新語の寿命を予測するモデルの構築
建立模型来预测技术术语中新词的寿命
- 批准号:
15700216 - 财政年份:2003
- 资助金额:
$ 2.58万 - 项目类别:
Grant-in-Aid for Young Scientists (B)