大規模Web情報の検索アルゴリズムに関する研究

大规模网络信息搜索算法研究

基本信息

  • 批准号:
    08J08116
  • 负责人:
  • 金额:
    $ 1.02万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2008
  • 资助国家:
    日本
  • 起止时间:
    2008 至 2009
  • 项目状态:
    已结题

项目摘要

大規模n-gramデータは,機械翻訳やかな漢字変換に用いる言語モデルの構築や,構文・共起に基づく言語知識の獲得などに有用である.しかし,気軽に利用するには規模が大きすぎるという難点があり,少数の研究において利用される程度にとどまっている.そこで,本研究では,大規模n-gramデータ用の検索システムを開発した.本システムは,導入が容易であり,Webブラウザからの検索もサポートすることで,データの利用にかかる負担を大幅に軽減している.これまでに,言語知識の獲得において,いくつかの成果を上げている.前年度に作成を開始したWebコーパスについては,規模の拡大により,データベースのサイズで約1.8TB,HTML文書の数で約6000万件という規模になっている.本コーパスは,上述した大規模n-gramデータの構築や,検索システムのテストに利用されている.また,近年になって盛んに研究がおこなわれている,大規模コーパスを前提とする言語処理への利用も進めている.辞書の構成法に関する研究では,簡潔データ構造とよばれるコンパクトなデータ構造の利用により,語彙数が10億件を超える極めて大規模な辞書を構築できることが確認された.また,各種データ構造の比較により,それぞれの利点や欠点が明らかとなり,用途による使い分けの指標となる情報が得られた.さらに,辞書に登録されている語を入力の候補として,優先順位にしたがって入力を補完する手法を新たに提案した.提案手法を用いると,候補が多い状況でも短時間で入力を補完できるため,より応答性の高いインタフェースを提供できる.
大规模的n-gram数据对于构建机器翻译和汉字转换的语言模型以及基于语法和共现的语言知识很有用。但是,据说规模太大,不适合随意使用。由于其缺点,它仅在少数研究中使用,因此,在本研究中,我们开发了一种针对大规模 n-gram 数据的搜索系统。它还支持从网络浏览器中进行搜索,这大大减轻了数据使用的负担。到目前为止,我们在获取语言知识方面取得了一些成果。去年创建的网络语料库已扩展到数据库大小。大约 1.8 TB,HTML 文档数量大约为 6000 万个。它用于构建大规模的n-gram数据和测试搜索系统。它也被用于基于大规模语料库的语言处理,近年来对如何构建词典的研究已经证实。通过使用一种称为简洁数据结构的紧凑数据结构,可以构建包含超过 10 亿个词汇项的极大字典。此外,通过比较各种数据结构,阐明了每种数据结构的优缺点,并获得了可用作不同用途索引的信息。此外,将词典中注册的单词用作输入候选,并确定优先级我们提出了一种新的方法来完成输入,如下所示。使用所提出的方法,即使在有很多候选者的情况下也可以在短时间内完成输入,从而可以提供更灵敏的界面。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Google N-gram検索システム 特定の形態素パターンを含むn-gramをGoogle n-gramコーパスから検索できる.
Google N-gram 搜索系统 您可以从 Google n-gram 语料库中搜索包含特定语素模式的 n-gram。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
重複レコードの多い大規模トライ辞書の圧縮
压缩具有许多重复记录的大型 trie 字典
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    矢田晋
  • 通讯作者:
    矢田晋
順序木の簡潔表現を用いたトライ辞書の評価
使用有序树的简洁表示来评估 trie 字典
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    矢田晋
  • 通讯作者:
    矢田晋
Fast string matching with space-efficient word graphs
与节省空间的单词图进行快速字符串匹配
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Susumu Yata
  • 通讯作者:
    Susumu Yata
ダブル配列による動的辞書の構成と評価
使用双数组构造和评估动态字​​典
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    矢田晋
  • 通讯作者:
    矢田晋
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

矢田 晋其他文献

接頭辞ダブル配列における空間効率を低下させないキー削除法
前缀双数组中不降低空间效率的键删除方法
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    矢田 晋
  • 通讯作者:
    矢田 晋
接頭辞ダブル配列における空間効率を低下させないキー削除法
前缀双数组中不降低空间效率的键删除方法
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    矢田 晋
  • 通讯作者:
    矢田 晋
接頭辞ダブル配列における空間効率を低下させないキー削除法
前缀双数组中不降低空间效率的键删除方法
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    矢田 晋
  • 通讯作者:
    矢田 晋

矢田 晋的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

Creating a corpus based educational word list for learners of Japanese - 6000 words for reading -
为日语学习者创建基于语料库的教育单词列表 - 6000 个阅读单词 -
  • 批准号:
    18K00708
  • 财政年份:
    2018
  • 资助金额:
    $ 1.02万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development and release of grammatical items usage database "Hagoromo" for teachers of Japanese
为日语教师开发并发布语法项目使用数据库“Hagoromo”
  • 批准号:
    15K02654
  • 财政年份:
    2015
  • 资助金额:
    $ 1.02万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Developing a web-based system for simplifying and rewriting Japanese polysemous words and phrases
开发基于网络的系统来简化和重写日语多义词和短语
  • 批准号:
    15H03219
  • 财政年份:
    2015
  • 资助金额:
    $ 1.02万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Cross Sectional Global Analysis of terms in Social Scientific papers and the Prototype of Web Dictionary
社会科学论文术语的横断面全局分析和网络词典的原型
  • 批准号:
    26370597
  • 财政年份:
    2014
  • 资助金额:
    $ 1.02万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of a web-based teaching material and its evaluation for teaching vocabulary appropriate for dissertations based on a corpus of Japanese language and self-reflection
基于日语语料库的网络教材开发及论文词汇教学评价及自我反思
  • 批准号:
    25381286
  • 财政年份:
    2013
  • 资助金额:
    $ 1.02万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了