アカデミック・ライティング研究のための日本語学術論文コーパス構築
建立用于学术写作研究的日本学术论文语料库
基本信息
- 批准号:21K00554
- 负责人:
- 金额:$ 2.75万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究は大学初年次のアカデミック・ライティング研究のために、多分野を横断した日本語論文コーパスを構築することを目的としている。コーパス化する論文は収集の容易さと多分野性の観点から大学リポジトリで公開されている紀要論文を中心とし、テキストコーパスとして構築した後、XMLタグによる文書構造のアノテーション、形態素解析・係り受け解析などを予定している。昨年度以来、論文のインデクス作成、論文PDF収集の自動化やOCRなどについて検討を進めているが、本年度は既にテキストが埋め込まれているPDFを対象として、PDFファイルからテキストデータを抽出・整形する方法について検討した。PDFをテキストファイルに変換するツールとしてはpdftotextなどのコマンドラインツールがあるが、出力されるデータは断片化されたテキストの羅列であるため、構造化されたテキストとして整形するためには相当の作業量が必要になる。PDFからのテキスト抽出を目的とした商用ソフトにはGUIでテキストブロックを特定した上で抽出処理を行えるものもあるが、多数のファイルを処理することを考えるとスクリプト処理で自動化できることが望ましい。現状、有力な選択肢はPythonのPDFminerライブラリであり、行の認識が直感に合い、テキストブロックの座標情報も出力されるため、座標やインデントを手がかりとした整形処理の自動化が期待できる。別の有望な選択肢としてはGPTなどの言語モデルの利用であり、ChatGPTを用いたごく限定的なテストでは、タイトル、著者、見出し、段落などの認識をよい精度で行えるようである。現在は、これらのツールを利用して構造化されたテキストファイルの生成の自動化を試行しているところである。
本研究的目的是构建一个多学科日语论文语料库,用于大学一年级学生学术写作的研究。纳入语料库的论文,从便于收藏和跨学科性的角度出发,主要是在大学文献库中发表的期刊论文,经过构建文本语料库、用XML标签标注文档结构、词法分析、依存分析等。已计划。从去年开始,我们一直在考虑为论文创建索引、自动化收集 PDF 论文、OCR 等,但今年我们的重点是从 PDF 文件中提取和格式化文本数据的方法,针对的是已经嵌入文本的 PDF我考虑过。有 pdftotext 等命令行工具可以将 PDF 转换为文本文件,但输出数据是碎片文本列表,因此需要大量工作才能将其格式化为结构化文本。一些用于从 PDF 中提取文本的商业软件可以使用 GUI 来识别文本块,然后执行提取过程,但考虑到将处理大量文件,因此希望能够使用脚本自动化该过程。目前,领先的选项是Python的PDFminer库,它具有直观的行识别功能并输出文本块坐标信息,因此可以期望以坐标和缩进为线索来自动化格式化过程。另一个有前途的选择是使用 GPT 等语言模型,在非常有限的 ChatGPT 测试中,该模型似乎能够非常准确地识别标题、作者、标题、段落等。我们目前正在尝试使用这些工具自动生成结构化文本文件。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
今田 水穂其他文献
子どもの意見を聴くこと・それを活かすこと―子どもたちの生きる現場から―
倾听孩子们的意见并加以利用 - 来自孩子们居住的地方 -
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア;山口善成;Akiko Manabe;宋恵媛;高橋義人;生駒夏美;西成彦;Nasu Akio;Yoshihiko IKEGAMI;石巻市子どもセンターらいつセンター長 荒木裕美(聴き手:安部芳絵) - 通讯作者:
石巻市子どもセンターらいつセンター長 荒木裕美(聴き手:安部芳絵)
崔, チョンア
崔正儿
- DOI:
10.24517/00061564 - 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア - 通讯作者:
崔 チョンア
見えない友と生きる時代のためのハーマン・メルヴィル『詐欺師』
赫尔曼·梅尔维尔的《欺骗者》讲述了我们与隐形朋友生活在一起的时代
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア;山口善成 - 通讯作者:
山口善成
ホロコースト文学は誰が担うのか?
谁负责大屠杀文学?
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア;山口善成;Akiko Manabe;宋恵媛;高橋義人;生駒夏美;西成彦 - 通讯作者:
西成彦
今田 水穂的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('今田 水穂', 18)}}的其他基金
大規模児童作文コーパスにおける埋め込み節の発達の計量的分析
大规模儿童作文语料库中嵌入子句发展的定量分析。
- 批准号:
19K23068 - 财政年份:2019
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Research Activity Start-up
名詞述語文コーパスの改訂と名詞結合価の研究
名词谓语句语料库修订及名词价研究
- 批准号:
17H00009 - 财政年份:2017
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Encouragement of Scientists
発達段階と到達目標を考慮した学齢別漢字重要度評価法の開発
考虑发展阶段和成就目标,开发按学龄评估汉字重要性的方法
- 批准号:
16H00011 - 财政年份:2016
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Encouragement of Scientists
教科書文法コーパスの構築と利用
教材语法语料库的构建与使用
- 批准号:
15H00014 - 财政年份:2015
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Encouragement of Scientists
大規模日本語コーパスを対象とした情報構造アノテーションとその利用
大规模日语语料库的信息结构标注及其应用
- 批准号:
26770167 - 财政年份:2014
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
Study of Language Layers in Vedic Literature for the Development of a Program for Age Estimation
研究吠陀文学中的语言层以开发年龄估计程序
- 批准号:
21KK0004 - 财政年份:2021
- 资助金额:
$ 2.75万 - 项目类别:
Fund for the Promotion of Joint International Research (Fostering Joint International Research (B))
Construction of Database for Quantitative Analysis of Language with a View to Clarify the Process of Composition of the Ancient Indian Literature
构建语言定量分析数据库以厘清古印度文学的创作过程
- 批准号:
20K20697 - 财政年份:2020
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
Examining English Classroom Discourse Through Compiling an English Classroom Video Corpus to Assist Non-native English Teachers in Elementary, Junior High, and Senior High School in Japan
通过编制英语课堂视频语料库来检验英语课堂话语,以协助日本中小学和高中非英语教师
- 批准号:
15K02778 - 财政年份:2015
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
A Study on Construction of Linguistic Resources in Heian Period
平安时代语言资源建设研究
- 批准号:
25284086 - 财政年份:2013
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Quantitative Study of Polite Expressions and Personal Pronouns with Advanced Tagging and Morphological Annotation of Modern Japanese Corpora
现代日语语料库的礼貌用语和人称代词的高级标注和形态注释的定量研究
- 批准号:
23720242 - 财政年份:2011
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Young Scientists (B)