文書の自動難易度判定に関する研究

文档难度自动判定研究

基本信息

  • 批准号:
    20650018
  • 负责人:
  • 金额:
    $ 2.11万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
  • 财政年份:
    2008
  • 资助国家:
    日本
  • 起止时间:
    2008 至 2010
  • 项目状态:
    已结题

项目摘要

本研究では、機械学習に基づく文書難易度判定の新しい手法を提案し、ある文書をユーザが与えると、その文書と難易度的に類似する文書を主要新聞記事サイトから獲得し、ユーザに提示するweb上のシステムを作ることを目的とした。既存研究としては、分類、あるいは回帰によるモデル化が行われてきたが、これでは、学習に必要な正解データを多言語で十分に確保することは難しい。本研究では、文書集合が与えられたときに、その集合に順序構造を導入することで難易度判定を行うことを提案した。検証は英日両方で行い、実際のシステムは英語、日本語で稼働させ、さらに中国語やスペイン語での構築を試みた。アイデアの根本部分については、有効性が十分検証され、言語処理分野の世界的な最高峰の英文論文誌Computational Linguisticsの論文として、採録となり、分野においてこれ以上の学術的な成果はないと考える。最終年度は、アイデアに関わる付随問題の検討に費やされた。まず、提案手法をより広い視野としての機械学習手法、語学学習の中で位置付け、この点を上記論文に加筆し、論文は6月に出版された。また、素性に相対頻度以外の統計量を追加し、アイデアの検証を行った。その背景には、本研究のための基礎研究があり、それらはいずれも雑誌論文として最終年度に出版するに至ったものである。第一は、莫大量のデータで計測された単語頻度が単語の難易度とどの程度相関するかを検証した。第二に、文書の複雑さを表す指標について研究を行った。これら二種類の指標と、文法的特性に関する指標などを追加して根幹アイデアを再検証し、実際に精度が向上することが示された。プロトタイプシステムは、実用に向けての再実装を行ったが、公開するには至っていない。というのも、検索対象として想定していたのは新聞で日々クロールされ集められるが、その難易度は均質にすぎ、検索対象としてのデータとして十分に難易度が異なるものではなかったのである。つまり、検索の対象とするデータが十分に得られないという予想外の問題が起きたため、システムは公開には至らなかった。この点は、たとえばユーザが文書を提供し合うなどソーシャルな枠組みなどを新たに考案する必要があるであろう。本研究は最初の2年間で最も重要な研究部分を終え、三年目は実用化のための機器類以外にはさほど費用を必要としなかった。このため、最終年度は残余分を返却するが、研究成果としては十二分に挙がったと自負している。最後に、3年間ご支援いただいた、本科研に関わる審査員や事務の皆様に、心より感謝申し上げます。
在这项研究中,我们提出了一种基于机器学习确定文档难度的新方法,当用户提供文档时,与该文档相似的文档是从主要报纸文章网站获得的,并将其呈现给用户目的是在网络上创建一个系统。作为现有研究,它已通过回归进行了分类或建模,但是很难确保在多语言中学习所需的正确答案数据。这项研究表明,当给出文档集时,通过将订单结构引入集合结构来引入订单结构。验证均以英语 - 日本人进行,实际系统用英语和日语进行操作,并试图构建中文和西班牙语。关于思想的根源,有效性得到了充分的验证,世界上最高的英语杂志计算语言学是对语言处理领域世界上最高峰的记录,并且该领域不再有学术成就。在去年,它用于考虑与思想相关的偶然问题。首先,提案方法将机器学习方法和语言学习定位为更大的观点,这一点已添加到上面的论文中,并于6月发表了论文。此外,将相对频率以外的其他统计数据添加到身份中,并验证了思想。这是这项研究的基础研究的背后,所有这些研究都是在去年发表的,作为杂志论文。首先,我们验证了用大量数据与单词难度相关的单词频率如何测量。其次,我们研究了代表文档复杂性的指标。结果表明,添加了这两种类型的语法特征指标和指标,以重新检查基本思想,并且实际上提高了准确性。原型系统被重新实现供实际使用,但尚未发布。这是因为假定它每天都在报纸上进行搜索和收集,但是难度水平过于均匀,并且难度级别没有像搜索目标数据完全不同。换句话说,由于要搜索的数据还不够的意外问题,因此没有发布该系统。例如,在这方面,有必要设计新的社交框架,例如提供文档的用户。这项研究完成了最重要的研究部分,而在第三年,除了实际使用设备以外,不需要其他成本。因此,去年将返回剩余的金额,但他为研究结果绰绰有余而感到自豪。最后,我要感谢参与该工作室的法官和文员三年。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
相対的観点に基づく類似難易度文書検索システムの構築
基于相对观点的相似难点文献检索系统的构建
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Wen JI;Yata ABE;Takeshi IKENAGA;Satoshi GOTO;河口洋一郎;宮崎大介;手塚智史,寺田博視,田中久美子
  • 通讯作者:
    手塚智史,寺田博視,田中久美子
Sorting by Readability
按可读性排序
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    9.3
  • 作者:
    Tanaka-Ishii;Kumiko;Tezuka;Satoshi;Terada;Hiroshi
  • 通讯作者:
    Hiroshi
Word familiarity and frequency
单词熟悉度和频率
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0.6
  • 作者:
    義久智樹;高橋真喜人;藤田直生;塚本昌彦;Tomohiro Okuyama;Kumiko Tanaka-Ishii and Hiroshi Terada
  • 通讯作者:
    Kumiko Tanaka-Ishii and Hiroshi Terada
こころと言葉 言語の文節に普遍的に観察される統計的性質 音素から形態素へ、単語へ、そして句
心灵和语言 语言段落中普遍观察到的统计特性 从音素到语素到单词到短语
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    手塚智史;寺田博視;田中久美子;田中久美子 長谷川寿一監修
  • 通讯作者:
    田中久美子 長谷川寿一監修
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

石井 久美子其他文献

N型遊離糖鎖の代謝におけるオートファジーの役割について
自噬在N型游离糖链代谢中的作用
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    清野 淳一;王 麗;石井 久美子;水島 昇;鈴木 匡
  • 通讯作者:
    鈴木 匡
抗体や毒素を用いた糖脂質膜マイクロドメインの構造と機能解析について
使用抗体和毒素对糖脂膜微域进行结构和功能分析
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岩渕和久;玉木友樹;増田浩美;岩原知博;松本亮;中山仁志;小林俊秀;石井 久美子;早川智広;小川秀興;髙森建二
  • 通讯作者:
    髙森建二

石井 久美子的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('石井 久美子', 18)}}的其他基金

価格と文書に基づく経済対象のベクトル表現とその応用
基于价格和单据的经济对象矢量表示及其应用
  • 批准号:
    23K21694
  • 财政年份:
    2024
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Study on embedding representations of financial entities based on price and texts
基于价格和文本的金融实体嵌入表示研究
  • 批准号:
    21H03493
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
少年雑誌にみる外来語の総合的研究
青少年杂志中外来词的综合研究
  • 批准号:
    21K13013
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
冪則の観点からの高度技術の評価方法に関する研究
幂律视角下先进技术评价方法研究
  • 批准号:
    20K20492
  • 财政年份:
    2020
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Pioneering)

相似海外基金

自然言語処理技術を用いた快適なWeb利活用支援に関する研究
利用自然语言处理技术支持舒适网络使用的研究
  • 批准号:
    19K12241
  • 财政年份:
    2019
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of a versatile future trend prediction support system using morphosemantic patterns information of text data
使用文本数据的形态语义模式信息开发多功能未来趋势预测支持系统
  • 批准号:
    17K00324
  • 财政年份:
    2017
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of A Dynamic Internet-based Wordbook System to Follow Information Transformation
开发基于互联网的动态词汇系统以跟踪信息转换
  • 批准号:
    20500833
  • 财政年份:
    2008
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Studies on Multimodal Dialogue Control using Multimedia Corpus and Probability Model
基于多媒体语料库和概率模型的多模态对话控制研究
  • 批准号:
    18500115
  • 财政年份:
    2006
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
アクシデントによって発生する損失医療費およびエラー指標算出の試みに関する研究
事故造成的医疗费用损失研究及误差指标计算尝试
  • 批准号:
    17659150
  • 财政年份:
    2005
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了