関連する複数のテキストを対象とした要約生成技術に関する研究
多相关文本摘要生成技术研究
基本信息
- 批准号:09480062
- 负责人:
- 金额:$ 8.58万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (B)
- 财政年份:1997
- 资助国家:日本
- 起止时间:1997 至 1998
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
従来の情報検索システムでは,検索対象となる文書と検索要求とを重み付きのキーワードベクトルで表現し,余弦を求めることで関連性を判定するベクトル空間モデルを用いることが多い.通常,ベクトルの各要素の重みの計算には出現回数を基にした統計量を用いるが,このような表層的な情報のみを利用した手法では,関連性が低い文書も検索してしまうという問題が生ずる.今年度は,従来の手法によって検索された文書集合を対象とし,その中から自然言語処理技術を用いて不適切な文書を排除する手法について研究をおこなった.具体的には,文書中の動詞,格要素(名詞,助詞)からなる格フレームに注目し,格フレームと検索要求との関連性を求めることによって文書と検索要求との関連性を判定する.格フレームを利用することで,文書の構造的な情報を扱うことが可能となり,キーワードのみの集合に比べて精密に文書の内容を把握することが可能となる.初期検索によって検索された文書集合から,格フレームと検索要求との関連性の計算する.関連性の判定には,格フレームがどの程度検索要求に対して特徴的であるかを示す重要度という尺度を用いる.格フレームに対して直接重要度をめることは難しいため,動詞,格要素それぞれに重要度を求め,それらを用いて格フレーム重要度を求める.また類似,包含関係にある格フレーム間では,類似性に応じて相互に重要度を修正することにより,特徴的な格フレームの判定を容易にした.格フレームの類似性の判定には動詞,格要素それぞれに対し,シソ-ラスを用いて求められる類似度と呼ばれる尺度を導入した.このようにして求めた格フレームの重要度を用い,関連性の高い文書を判定する.約5,000文書からなる情報検索システム評価用のテストコレクションを用いて本手法を評価した結果,初期検索によって関連文書がある程度絞り込まれている場合には,従来法と比較して本手法が有効であることがわかった.
传统的信息检索系统常常采用向量空间模型,将待搜索的文档和搜索请求表示为加权关键词向量,通过计算余弦来确定相关性。通常,每个向量都是总元素权重该计算使用基于出现次数的统计数据,但是仅使用诸如此类的表面信息的方法会导致检索与该方法检索的文档集无关的文档的问题,我们研究了一种利用自然语言处理技术消除不适当文档的方法。具体来说,我们重点关注文档中由动词和格元素(名词、助词)组成的格框架,并通过确定它们的相关性通过使用案例框架,可以处理文档的结构信息,并且可以比单独一组关键字更准确地掌握文档的内容。案例框架和搜索请求之间的相关性是根据获得的文档集来计算的。为了确定相关性,使用了重要性度量,该度量指示案例框架对于搜索请求的特征程度,因为很难直接确定。衡量格框架的重要性,我们计算每个动词和格元素的重要性,并用它们来计算格框架重要性。此外,具有相似或包含关系的格框架之间,通过根据相似性相互修改重要性,可以轻松判断特征案例框架。为了判断格框架的相似度,我们引入了一种称为相似度的度量,它是使用同义词库对每个动词和格元素进行计算的。通过这种方式计算的格框架的重要性是使用测试集评估此方法的结果在评估由大约 5,000 个文档组成的信息检索系统时,我们发现,如果通过初始搜索将相关文档缩小到一定程度,则发现所提出的方法比传统方法更有效。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
徳永 健伸其他文献
徳永 健伸的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('徳永 健伸', 18)}}的其他基金
コンピュータとの対話による言語学習者の生産語彙能力評定の自動化
通过与计算机交互自动评估语言学习者的生产性词汇技能
- 批准号:
21K18358 - 财政年份:2021
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
新聞記事の要約のためのテンプレートの自動抽出に関する研究
报纸文章摘要模板自动提取研究
- 批准号:
08780336 - 财政年份:1996
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
確率理論に基づく文書の自動分類に関する研究
基于概率论的文档自动分类研究
- 批准号:
07780309 - 财政年份:1995
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
言語データを用いた自然言語処理用シソ-ラスの自動構築に関する研究
利用语言数据自动构建自然语言处理词库的研究
- 批准号:
06780301 - 财政年份:1994
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
推敲を考慮した自然言語生成のための文法の形式化に関する研究
考虑阐述的自然语言生成语法形式化研究
- 批准号:
05780280 - 财政年份:1993
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
推敲に基づく日本語生成に関する研究
基于精化的日语生成研究
- 批准号:
03750264 - 财政年份:1991
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
高品質機械翻訳のための日本語文生成に関する研究
高质量机器翻译的日语句子生成研究
- 批准号:
02750253 - 财政年份:1990
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
Study on know-how actualization of a cause-of-death investigation process
死因调查流程的专有技术实现研究
- 批准号:
15K00395 - 财政年份:2015
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
遷移型の解析器に基づく教師なし係り受け解析に関する研究
基于过渡型分析器的无监督依赖分析研究
- 批准号:
15J07986 - 财政年份:2015
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for JSPS Fellows
Efficient and accurate natural language analysis with lookahead of analysis actions
通过分析操作的前瞻进行高效、准确的自然语言分析
- 批准号:
23700162 - 财政年份:2011
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
Simultaneous interpreting system based on segmentation, translation and connection of spoken sentences
基于口语句子切词、翻译、连接的同声传译系统
- 批准号:
20300058 - 财政年份:2008
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
大規模音声言語コーパスを用いた独話データの構造化とその応用に関する研究
大规模口语语料库的独白数据结构化及其应用研究
- 批准号:
06J06433 - 财政年份:2006
- 资助金额:
$ 8.58万 - 项目类别:
Grant-in-Aid for JSPS Fellows