HTML文書からの輪理構造自動推定に関する研究
HTML文档环结构自动估计研究
基本信息
- 批准号:17700137
- 负责人:
- 金额:$ 1.54万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2005
- 资助国家:日本
- 起止时间:2005 至 2006
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Web文書の文書構造を表現するモデルとして、前年度提案した「ヘッダ木」と呼ばれる木構造を採用し、これを精度良く推定するためのアルゴリズムについて研究を行った。アルゴリズムは、HTML文書を文字列のリストに変換し、文字列リスト中の各要素間の関係を推定することにより、ヘッダー木の抽出を行う。そのための手法として、「リストの隣り合う要素間の関係のEMアルゴリズムによる推定」と、「文法によるレイアウト構造の解析」という2つの方針を検討し、それらについて詳細な検討を行った。前者については、各種ヒューリステイクスに関係するパラメータの設定や、学習データ量の増加、適切な後処理のアルゴリズムの設計等を行い、精度が向上することを確認した。また、後者については、従来の自然文の構文構造解析にヒントを得、Probabilistic Context Free GrammarsやProbabilistic Tree Adjoining Grammars等の文法枠組に従って、レイアウト構造に関する統一的な確率モデルを構築した。さらに、通常のコーパスと比べノイズの多いWeb文書を適切に取り扱うための前処理に関しても、アルゴリズムの改良を行った。応用システムに関しては、「解析されたヘッダ木に基づき、検索語の文書構造内の位置を把握し、上位ヘッダ、並列要素、等を文脈として表示する」という新たな検索システムについて実装を進めた。それに伴い、検索語の曖昧性を解消するための手法についても研究を行った。
我们采用了去年提出的一种称为“标题树”的树结构作为表示Web文档的文档结构的模型,并研究了精确估计该结构的算法。该算法通过将 HTML 文档转换为字符串列表并推断字符串列表中每个元素之间的关系来提取标题树。为此,我们考虑了“使用EM算法估计列表中相邻元素之间的关系”和“使用语法分析布局结构”两种方法,并对它们进行了详细的研究。对于前者,我们确认通过设置与各种启发式相关的参数、增加训练数据量以及设计适当的后处理算法可以提高准确性。对于后者,我们借鉴传统的自然句子句法结构分析,根据概率上下文无关语法和概率树邻接语法等语法框架,构建了统一的布局结构概率模型。此外,我们改进了预处理算法,以正确处理比普通语料库噪音更大的网络文档。关于应用系统,我们实现了一个新的搜索系统,“根据分析的标题树了解搜索词在文档结构中的位置,并将更高级别的标题、并行元素等显示为上下文。”除此之外,我们还研究了消除搜索词歧义的方法。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Automatic Term Extraction Based on Perplexity of Compound Words
- DOI:10.1007/11562214_24
- 发表时间:2005-10
- 期刊:
- 影响因子:0
- 作者:Minoru Yoshida;Hiroshi Nakagawa
- 通讯作者:Minoru Yoshida;Hiroshi Nakagawa
Reformatting Web Documents via Header Trees
通过标题树重新格式化 Web 文档
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:Tsubone;Tadashi;Tsutsui;Kiyotaka;Muroga;Takeo;Wada;Yasuhiro;Minoru Yoshida and Hiroshi Nakagawa
- 通讯作者:Minoru Yoshida and Hiroshi Nakagawa
NAYOSE : A System for Reference Disambiguation of Proper Nouns Appearing on Web Pages
NAYOSE:网页上出现的专有名词参考消歧系统
- DOI:
- 发表时间:2006
- 期刊:
- 影响因子:0
- 作者:Shingo Ono;Minoru Yoshida;Hiroshi Nakagawa
- 通讯作者:Hiroshi Nakagawa
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
吉田 稔其他文献
細胞分裂過程におけるHP1αクロモドメインとヒストンH3の結合状態の経時観察
细胞分裂过程中HP1α染色质结构域与组蛋白H3结合状态的延时观察
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
佐々木和樹;鈴木律裕;中尾 洋一;吉田 稔 - 通讯作者:
吉田 稔
Non-linear continuous maps on abstract Wiener spaces defined on space of tempered distributions
- DOI:
- 发表时间:
1999-12 - 期刊:
- 影响因子:0
- 作者:
吉田 稔 - 通讯作者:
吉田 稔
Phylogenetic classifier of bacterial genomes based on nucleotide pentamer profiles
基于核苷酸五聚体谱的细菌基因组系统发育分类器
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
松本 和幸;篠山 学;寺園 嶺;吉田 稔;北 研二;高野翔吾,北 研二,吉田 稔,松本和幸;中野善夫,土門優作,山岸賢司,渡辺孝康 - 通讯作者:
中野善夫,土門優作,山岸賢司,渡辺孝康
吉田 稔的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('吉田 稔', 18)}}的其他基金
専門家と非専門家の違いを考慮した科学的テキスト分析に関する研究
考虑专家与非专家差异的科学文本分析研究
- 批准号:
24K15193 - 财政年份:2024
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Uncovering hidden functions of intrinsic metabolites using chemical genetics and informatics
利用化学遗传学和信息学揭示内在代谢物的隐藏功能
- 批准号:
23H05473 - 财政年份:2023
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research (S)
Utilization of an energy metabolic control compound to treat mitochondrial diseases
利用能量代谢控制化合物治疗线粒体疾病
- 批准号:
22KF0400 - 财政年份:2023
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for JSPS Fellows
ミトコンドリア病治療法確立を目指したエネルギー代謝の化学的制御研究
能量代谢的化学控制研究旨在建立线粒体疾病的治疗方法
- 批准号:
21F21404 - 财政年份:2021
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for JSPS Fellows
数値および専門性と話題性に着目したSNSからの科学的知識抽出に関する研究
基于数值、专业知识和话题性的SNS科学知识提取研究
- 批准号:
21K12141 - 财政年份:2021
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Innovative chemical genetics on novel function of endogenous metabolites
内源代谢物新功能的创新化学遗传学
- 批准号:
19H05640 - 财政年份:2019
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research (S)
Chemical biology on siderophore-mediated inter-microbial interactions
铁载体介导的微生物间相互作用的化学生物学
- 批准号:
19H00935 - 财政年份:2019
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
微生物由来スプライシング阻害剤によるイントロン生物学の展開
使用微生物源剪接抑制剂开发内含子生物学
- 批准号:
26252013 - 财政年份:2014
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
薬剤標的分子同定のための分裂酵母ケミカルゲノミクス
用于药物靶分子鉴定的裂变酵母化学基因组学
- 批准号:
16658039 - 财政年份:2004
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Exploratory Research
命題の局所的組織化に基づく,中学校数学科の幾何教育カリキュラムの開発と評価
基于局部命题组织的初中数学系几何教育课程开发与评价
- 批准号:
15530577 - 财政年份:2003
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
相似海外基金
A Difference Extraction Algorithm for Regular Tree Grammar
正则树文法的差异提取算法
- 批准号:
23500110 - 财政年份:2011
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
High Precision and Fast Structured Document Retrieval in the Many-core Processor Era
众核处理器时代的高精度、快速结构化文档检索
- 批准号:
23500121 - 财政年份:2011
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
順序付き線形型に基づく安全かつ高速な大規模データ処理の実現
基于有序线性类型实现安全快速的大规模数据处理
- 批准号:
19024003 - 财政年份:2007
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
順序付き線形型に基づく安全かつ高速な大規模データ処理の実現
基于有序线性类型实现安全快速的大规模数据处理
- 批准号:
18049002 - 财政年份:2006
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
The Text Viewer to assist Reading Comprehension for learners of Japanese.
帮助日语学习者阅读理解的文本查看器。
- 批准号:
15500611 - 财政年份:2003
- 资助金额:
$ 1.54万 - 项目类别:
Grant-in-Aid for Scientific Research (C)