文書の自動難易度判定に関する研究

文档难度自动判定研究

基本信息

  • 批准号:
    20650018
  • 负责人:
  • 金额:
    $ 2.11万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
  • 财政年份:
    2008
  • 资助国家:
    日本
  • 起止时间:
    2008 至 2010
  • 项目状态:
    已结题

项目摘要

本研究では、機械学習に基づく文書難易度判定の新しい手法を提案し、ある文書をユーザが与えると、その文書と難易度的に類似する文書を主要新聞記事サイトから獲得し、ユーザに提示するweb上のシステムを作ることを目的とした。既存研究としては、分類、あるいは回帰によるモデル化が行われてきたが、これでは、学習に必要な正解データを多言語で十分に確保することは難しい。本研究では、文書集合が与えられたときに、その集合に順序構造を導入することで難易度判定を行うことを提案した。検証は英日両方で行い、実際のシステムは英語、日本語で稼働させ、さらに中国語やスペイン語での構築を試みた。アイデアの根本部分については、有効性が十分検証され、言語処理分野の世界的な最高峰の英文論文誌Computational Linguisticsの論文として、採録となり、分野においてこれ以上の学術的な成果はないと考える。最終年度は、アイデアに関わる付随問題の検討に費やされた。まず、提案手法をより広い視野としての機械学習手法、語学学習の中で位置付け、この点を上記論文に加筆し、論文は6月に出版された。また、素性に相対頻度以外の統計量を追加し、アイデアの検証を行った。その背景には、本研究のための基礎研究があり、それらはいずれも雑誌論文として最終年度に出版するに至ったものである。第一は、莫大量のデータで計測された単語頻度が単語の難易度とどの程度相関するかを検証した。第二に、文書の複雑さを表す指標について研究を行った。これら二種類の指標と、文法的特性に関する指標などを追加して根幹アイデアを再検証し、実際に精度が向上することが示された。プロトタイプシステムは、実用に向けての再実装を行ったが、公開するには至っていない。というのも、検索対象として想定していたのは新聞で日々クロールされ集められるが、その難易度は均質にすぎ、検索対象としてのデータとして十分に難易度が異なるものではなかったのである。つまり、検索の対象とするデータが十分に得られないという予想外の問題が起きたため、システムは公開には至らなかった。この点は、たとえばユーザが文書を提供し合うなどソーシャルな枠組みなどを新たに考案する必要があるであろう。本研究は最初の2年間で最も重要な研究部分を終え、三年目は実用化のための機器類以外にはさほど費用を必要としなかった。このため、最終年度は残余分を返却するが、研究成果としては十二分に挙がったと自負している。最後に、3年間ご支援いただいた、本科研に関わる審査員や事務の皆様に、心より感謝申し上げます。
这项研究提出了一种基于机器学习确定文档难度的新方法,并旨在创建一个网络系统,在该系统中,用户提供的文档与主要报纸文章网站的难度相似,并将其呈现给用户。现有的研究是使用分类或回归对现有的,但这使得很难确保以多种语言学习所需的足够正确的答案数据。在这项研究中,我们提出,当给出一组文档时,通过将订单结构引入该集合来确定难度确定。该验证是用英语和日语进行的,实际的系统用英语和日语进行,并尝试用中文和西班牙语构建它。该想法的基本部分已得到充分验证其有效性,并被计算语言学(全球在语言处理领域中最好的英语文章)所接受,我们相信该领域没有进一步的学术成就。最后一年花了研究与思想有关的偶然问题。首先,提出的方法将机器学习方法和语言学习定位为更广泛的视角,这一点已添加到上面的论文中,该论文于6月发表。此外,将相对频率以外的其他统计数据添加到特征中以验证思想。这项研究的基础研究背景是最后一年作为期刊论文发表的基础研究。首先,我们检查了大量数据与单词难度相关的大量数据测量的单词频率。其次,我们对代表文档复杂性的指标进行了研究。这两种类型的指标和指标重新检查了语法特征,并添加了其他指标以重新审查潜在的想法,表明准确性实际上有所提高。原型系统已重新实现供实际使用,但尚未公开。这是因为搜索目标每天都在报纸上爬行和收集,但是难度水平仅是均匀的,并且对于搜索目标而言,难度水平对数据的差异没有足够的不同。换句话说,由于出乎意料的问题,没有足够的数据被搜索。这一点可能需要新的社交框架,例如,用户提供文档。这项研究完成了头两年中最重要的部分,在第三年,除了实际使用的设备外,没有其他巨大成本。因此,剩余金额将在最后一年退还,但我很自豪地说这项研究结果已经足够了。最后,我们要对与技术研究院有关的所有法官和行政人员表示衷心的感谢,以在过去三年中的支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
相対的観点に基づく類似難易度文書検索システムの構築
基于相对观点的相似难点文献检索系统的构建
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Wen JI;Yata ABE;Takeshi IKENAGA;Satoshi GOTO;河口洋一郎;宮崎大介;手塚智史,寺田博視,田中久美子
  • 通讯作者:
    手塚智史,寺田博視,田中久美子
Sorting by Readability
按可读性排序
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    9.3
  • 作者:
    Tanaka-Ishii;Kumiko;Tezuka;Satoshi;Terada;Hiroshi
  • 通讯作者:
    Hiroshi
Word familiarity and frequency
单词熟悉度和频率
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0.6
  • 作者:
    義久智樹;高橋真喜人;藤田直生;塚本昌彦;Tomohiro Okuyama;Kumiko Tanaka-Ishii and Hiroshi Terada
  • 通讯作者:
    Kumiko Tanaka-Ishii and Hiroshi Terada
こころと言葉 言語の文節に普遍的に観察される統計的性質 音素から形態素へ、単語へ、そして句
心灵和语言 语言段落中普遍观察到的统计特性 从音素到语素到单词到短语
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    手塚智史;寺田博視;田中久美子;田中久美子 長谷川寿一監修
  • 通讯作者:
    田中久美子 長谷川寿一監修
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

石井 久美子其他文献

N型遊離糖鎖の代謝におけるオートファジーの役割について
自噬在N型游离糖链代谢中的作用
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    清野 淳一;王 麗;石井 久美子;水島 昇;鈴木 匡
  • 通讯作者:
    鈴木 匡
抗体や毒素を用いた糖脂質膜マイクロドメインの構造と機能解析について
使用抗体和毒素对糖脂膜微域进行结构和功能分析
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岩渕和久;玉木友樹;増田浩美;岩原知博;松本亮;中山仁志;小林俊秀;石井 久美子;早川智広;小川秀興;髙森建二
  • 通讯作者:
    髙森建二

石井 久美子的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('石井 久美子', 18)}}的其他基金

価格と文書に基づく経済対象のベクトル表現とその応用
基于价格和单据的经济对象矢量表示及其应用
  • 批准号:
    23K21694
  • 财政年份:
    2024
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Study on embedding representations of financial entities based on price and texts
基于价格和文本的金融实体嵌入表示研究
  • 批准号:
    21H03493
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
少年雑誌にみる外来語の総合的研究
青少年杂志中外来词的综合研究
  • 批准号:
    21K13013
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
冪則の観点からの高度技術の評価方法に関する研究
幂律视角下先进技术评价方法研究
  • 批准号:
    20K20492
  • 财政年份:
    2020
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Pioneering)

相似海外基金

自然言語処理技術を用いた快適なWeb利活用支援に関する研究
利用自然语言处理技术支持舒适网络使用的研究
  • 批准号:
    19K12241
  • 财政年份:
    2019
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of a versatile future trend prediction support system using morphosemantic patterns information of text data
使用文本数据的形态语义模式信息开发多功能未来趋势预测支持系统
  • 批准号:
    17K00324
  • 财政年份:
    2017
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of A Dynamic Internet-based Wordbook System to Follow Information Transformation
开发基于互联网的动态词汇系统以跟踪信息转换
  • 批准号:
    20500833
  • 财政年份:
    2008
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Studies on Multimodal Dialogue Control using Multimedia Corpus and Probability Model
基于多媒体语料库和概率模型的多模态对话控制研究
  • 批准号:
    18500115
  • 财政年份:
    2006
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
アクシデントによって発生する損失医療費およびエラー指標算出の試みに関する研究
事故造成的医疗费用损失研究及误差指标计算尝试
  • 批准号:
    17659150
  • 财政年份:
    2005
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了