近似圧縮アルゴリズムによるテキストデータ処理の高速化

使用近似压缩算法加速文本数据处理

基本信息

  • 批准号:
    08780373
  • 负责人:
  • 金额:
    $ 0.64万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1996
  • 资助国家:
    日本
  • 起止时间:
    1996 至 无数据
  • 项目状态:
    已结题

项目摘要

本年度は,文字分類写像の概念に基づく近似圧縮アルゴリズムについて,以下にあげる研究結果が得られた.まず,(1)テキストデータの復元不可能な情報損失について近似誤差の定式化を行ったところ,文字分類写像は,文字種数を減らすときに失われるシャノン情報量を最小にするものであることが明らかになった.このことから,文字分類写像の定式化の方法が妥当であることが明確になった.次に,(2)組合せ最適化問題として定式化した文字分類を用いる近似圧縮について,多項式時間近似アルゴリズムの設計を行う上での文字分類写像を求める問題の計算量を解析した.結果として,この問題の近似は文字照合としてとらえると可能であるが,相異なる二つの文字列の集合を混同しないという問題として考えると,多項式時間では困難な問題となることが明らかになった.さらに,(3)近似文字列照合機械として非帰還性のオートマトンを用いる方法が一般的であるが,その場合,入出力を完全に特定しなければ最小状態のオートマトンを作ることが計算量的に困難であることがわかった.また,(4)具体的な適用分野で必要とされる処理に圧縮したデータが適しているかを検証するために,遺伝子情報処理のシステムのプロトタイピングを行い,エンジニアリング・ワークステーションで計算実験をおこなった.結果として,実験対象が文字分類の概念に適したものであれば,厳密な文字列の区別においても非常に効果的であることがわかった.
今年,根据字符分类映射的概念,根据近似压缩算法获得了以下研究结果。首先,(1)无法恢复的文本数据丢失的近似误差的表述,并且发现字符分类绘制的映射可最大程度地减少降低字符类型数量时丢失的香农信息量。这清楚地表明,制定字符分类映射的方法是合理的。接下来,(2)为使用公式的字符分类作为组合优化问题进行近似压缩,我们分析了在多项式时间近似算法设计中字符分类映射的计算的复杂性。结果,尽管此问题中的近似值可以视为角色匹配,但可以查看两个不同的字符串。考虑到不混淆集合的问题,已经揭示了多项式时间是一个困难的问题。此外,(3)尽管使用非反馈自动机作为近似字符串匹配计算机是常见的,但在这种情况下,在计算上很难创建具有最低状态的自动机而不完全识别输入/输出。此外,(4)为了验证压缩数据是否适用于特定应用程序领域所需的处理,我们原型制定了遗传信息处理系统的系统,并在工程工作站上进行了计算实验。结果,我们发现,如果实验主题适合特征分类的概念,则在区分字符串方面也非常有效。

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
M.Yamaguchi,S.Shimozono,T.Shinohara: "Finding minimal multiple generalization over regular patterns with alphabet indexing" Proceedings of the Seventh Workshop on Genome Informatics. 51-60 (1996)
M.Yamaguchi、S.Shimozono、T.Shinohara:“通过字母索引查找规则模式的最小多重泛化”第七届基因组信息学研讨会论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
平田耕一、下薗真一、篠原歩: "無矛盾最小OBDD問題の近似困難性について" 電子情報通信学会技術研究報告. COMP96- 9〜15. 39-48 (1996)
Koichi Hirata、Shinichi Shimozono、Ayumu Shinohara:“关于近似一致最小 OBDD 问题的难度”IEICE COMP96- 9-48 (1996)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.Hirata,S.Shimozono,A.Shinohara: "On the hardness of approximating the minimum consistern OBDD problem" Lecture Notes in Computer Science. 1097. 112-123 (1996)
K.Hirata、S.Shimozono、A.Shinohara:“关于近似最小一致性 OBDD 问题的难度”计算机科学讲义。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
下薗真一: "例を無矛盾に保つための文字分類の近似困難性" 情報基礎理論ワークショップ. (1996)
Shinichi Shimozono:“字符分类中保持示例一致的近似困难”信息论研讨会(1996)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

下薗 真一其他文献

SQL による評価関数の外部定義が可能な最適時間割作成システム
允许使用 SQL 外部定义评估函数的最佳时间表创建系统
幾何点列近似照合を用いたタンパク質二次構造近似検索の実現
利用几何点序列近似匹配实现蛋白质二级结构近似搜索
空間索引を用いたバイナリプログラムの高速照合
使用空间索引高速匹配二进制程序

下薗 真一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('下薗 真一', 18)}}的其他基金

最適作業時間割問題のカスタマイザブルCADシステム
可定制的 CAD 系统解决最佳工作时间表问题
  • 批准号:
    16700147
  • 财政年份:
    2004
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
データベースから近似的な規則を抽出する高速アルゴリズムの研究
数据库近似规则提取高速算法研究
  • 批准号:
    12780286
  • 财政年份:
    2000
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
近似圧縮アルゴリズムによるテキストデータ処理の高速化
使用近似压缩算法加速文本数据处理
  • 批准号:
    07780341
  • 财政年份:
    1995
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

Examining the process of academic writing that involves reading multiple texts
检查涉及阅读多篇文本的学术写作过程
  • 批准号:
    23K12214
  • 财政年份:
    2023
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Detection and Analysis of Automatically Generated Text according to the Applications
根据应用自动生成文本的检测和分析
  • 批准号:
    23K11767
  • 财政年份:
    2023
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
自動推論プロセスの分析による人にとっての数学問題困難度の予測
通过分析自动推理过程来预测人类数学问题的难度级别
  • 批准号:
    22K19800
  • 财政年份:
    2022
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
Extending knowledge graph structures through deep text understanding
通过深度文本理解扩展知识图结构
  • 批准号:
    22K12044
  • 财政年份:
    2022
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Acquisition, Retrieval and Synthesis of Information Semantics by Machine Learning
通过机器学习获取、检索和合成信息语义
  • 批准号:
    22H03905
  • 财政年份:
    2022
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了