コンピュータコーパスを用いた18〜19世紀英語散文の文体研究
利用计算机语料库对18-19世纪英语散文进行文体研究
基本信息
- 批准号:12710254
- 负责人:
- 金额:$ 1.47万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Encouragement of Young Scientists (A)
- 财政年份:2000
- 资助国家:日本
- 起止时间:2000 至 2001
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究は18〜19世紀の英語散文大規模コーパスを構築し,いわゆる「散文の世紀」と呼ばれる時代からvictoria時代にかけての英語散文の文体的特徴を通時的視座および共時的視座の両面から記述しようという試みである。計二年目の平成13年度は,前半では,平成12年度に引き続き言語データの電子化法の理論的検討と実験を相補的な形でとりおこなうことによって研究基盤の確立をはかり,後半では,出来上がった電子コーパスの統計学的解析を通して,英語散文文体における口語化の傾向や言語使用域における文体変異の相を分析した。研究成果の主な点は次の通りである:1.語彙品詞標識マークアップ(組み込み)法の理論的検討および実践。最近のコーパス言語学の成果,とりわけマークアップに関する研究を比較検討し,文体研究に最適化した形でマークアップを応用する方法を研究した。電子テキストを元に,様々なタイプのテキストマークアップの試行とテキスト分析の実験を繰り返し,英語散文のテキスト処理に有用なマークアップ方法の開発を試みた。その結果,品詞標識に関してはPenn-Treebank方式に準じた形式を採用し,自動品詞標識付与プログラム(UNIXサーバ上で稼働)に学習させることで,自動認識率を96%以上にまで高めることが可能になった。本研究計画で作成したコーパスはいずれもPenn-Treebank準拠の品詞標識が埋め込まれている。なお,この成果の一部については,研究代表者が編集した論文集『電子化言語資料分析の方法論』(大阪大学言語文化部・大阪大学大学院言語文化研究科発行)所収の「英語文体論研究のための言語処理技術-Corpus Processing for Stylistic Analysis of Texts」に発表した。2.コーパスデータの文体統計学的分析。編纂したコーパスから得られたデータを基に,さまざまな語彙項目や構文間の相互関係,テキスト間の相互関係,そして語彙や構文とテキストとの相互関係を分析し,Dickensの散文を軸にその前後の時代,すなわち,18世紀および19世紀後半の散文との文体比較を行った。その結果、18〜19世紀の英語散文における言語特徴の出現パターンは,経年的に変化しているということ,特に,19世紀初頭の散文において典型的に認められるより文語的,形式的,複雑な構造を持ったものから,19世紀後半の散文に特徴的な相対的に口語的,並列的,文脈依存な傾向を深めた文体へと移り変わっていることを本研究は明らかにした。なお、この成果の一部はオランダ・Rodopi社より本年3月発刊のEnglish Corpus Linguistics in Japanの第16章1nvestigating Stylistic Variation in Dickens through Correspondence Analysis of Word-Class Distribution,および渡辺秀樹(編)『英語文体論の方法と射程』(大阪大学言語文化部・大阪大学大学院言語文化研究科発行)の第4章「コーパス言語学の文体論:Corpus-Based Stylistics-MF/MD法による文体比較」にて発表した。
本研究构建了18世纪和19世纪英语散文的大型语料库,从历时和共时的角度审视了从所谓“散文世纪”到维多利亚时代英语散文的文体特征。这是对其进行描述的尝试。 2001财年,也就是第二年,上半年,继2000财年之后,我们的目标是通过对语言数据数字化方法进行互补的理论研究和实验来建立研究基地,下半年,我们通过对已完成的电子语料库进行统计分析,分析了英语散文文体的口语化倾向以及语言使用范围的文体变异阶段。主要研究成果如下: 1.词汇词性标记标记(嵌入)方法的理论检验与实践。我们比较和检验了语料库语言学的最新成果,特别是标记研究,并研究了以针对文体研究优化的形式应用标记的方法。我们以电子文本为基础,反复尝试各种类型的文本标记和文本分析,试图开发出一种适用于英语散文文本处理的标记方法。因此,通过采用类似于 Penn-Treebank 方法的词性指示符格式并让自动词性标记程序(在 UNIX 服务器上运行)进行学习,可以提高自动识别率率达到96%以上。该研究项目中创建的所有语料库都嵌入了符合 Penn-Treebank 的词性指标。该成果的一部分可以在主要研究者编辑的论文集《英语文体学研究》《数字化语言材料分析方法》(语言文化学院出版,大阪大学和大阪大学语言文化研究生院发表于“文本文体分析的语料库处理”。 2.语料数据的文体统计分析。基于整理的语料库获得的数据,我们分析了各种词项与句法之间的相互关系、文本之间的相互关系、词汇与句法与文本之间的相互关系,重点对狄更斯的散文进行了文体比较。前后时代,即18世纪和19世纪后半叶。因此,我们发现 18 世纪和 19 世纪英语散文中语言特征的出现模式随着时间的推移而发生了变化,尤其是 19 世纪早期散文中常见的更具文学性、正式性和复杂性的模式。从结构化写作风格转向深化 19 世纪末散文的相对口语化、平行化和依赖语境特征的倾向。该成果的部分成果发表在今年3月荷兰Rodopi出版的《日本英语语料库语言学》第16章中。 1通过词类对应分析研究狄更斯的文体变异Distribution 和 Hideki Watanabe (ed.) 《英语文体学的方法和范围》(大阪大学语言文化学院/大阪大学语言文化研究生院出版)第 4 章“基于语料库的文体学”在“Stylistic”上发表使用 MF/MD 方法进行比较”。
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Tomoji Tabata(共著): "English Corpus Linguistics in Japan"Editions Rodopi. 340 (2002)
Tomoji Tabata(合著者):《日本英语语料库语言学》Editions Rodopi 340 (2002)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
田畑 智司: "第4章コーパス言語学の文体論:Corpus-Based Stylistics-MF/MD法による文体比較-"渡辺秀樹(編)英語文体論の方法と射程(大阪大学言語文化部・大阪大学大学院言語文化研究科発行). 75-89 (2002)
Satoshi Tabata:“第 4 章语料库语言学的文体学:使用基于语料库的文体学-MF/MD 方法的文体学比较” Hideki Watanabe(编辑)英语文体学的方法和范围(大阪大学语言文化学院研究生院)大阪大学)语言文化研究生院出版)75-89(2002)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
田畑 智司(編): 電子化言語資料分析の方法論(大阪大学言語文化部・大阪大学大学院言語文化研究科発行). 40 (2002)
Satoshi Tabata(编辑):分析数字化语言材料的方法(大阪大学语言文化学院/大阪大学语言文化研究生院出版)40(2002)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
田畑 智司: "英語文体論研究のための言語処理技術-Corpus Processing for Stylistic Analysis of Texts"田畑 智司(編)電子化言語資料分析の方法論(大阪大学言語文化部・大阪大学大学院言語文化研究科発行). 25-39 (2002)
Satoshi Tabata:《文本文体分析的语言处理技术》Satoshi Tabata(主编)《数字化语言材料分析方法》(大阪大学语言文化学院/大阪大学语言文化研究生院出版)25-39。 (2002)
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
田畑 智司其他文献
「ズームイン・ズームアウト―デジタルヒューマニティーズとテクストの「読み」―」
《放大与缩小:数字人文与文本的“读”》
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
田畑 智司;Tomoji Tabata;田畑 智司;田畑 智司;Tomoji Tabata;Tomoji Tabata;Tomoji Tabata;田畑 智司 - 通讯作者:
田畑 智司
Key words and textometry: Are key words really "key" words?
关键词和文本测量:关键词真的是“关键词”吗?
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
呉 沢臣;伊東 栄典;田畑 智司 - 通讯作者:
田畑 智司
知識基盤としてのデジタルライブラリーの将来
数字图书馆作为知识基础设施的未来
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
S. Nakao;K. Honda;A. Notsu;H. Ichihashi;呑海沙織・溝上智恵子;Y.Maeda;田畑 智司;土屋俊 - 通讯作者:
土屋俊
Too many suspects, too much burstiness: A meta-analysis of key-word-detection statistics for stylometry
嫌疑人太多,突发性太多:文体测量关键词检测统计的元分析
- DOI:
- 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
呉 沢臣;伊東 栄典;呑海沙織;田畑 智司 - 通讯作者:
田畑 智司
修辞項目のアノテーションを活用したテクスト分析
使用修辞项注释进行文本分析
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
斉藤まなぶ;大里絢子;田中勝則;増田貴人,高柳伸哉;安田小響;中村和彦;田畑 智司 - 通讯作者:
田畑 智司
田畑 智司的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('田畑 智司', 18)}}的其他基金
Machine-learning Approaches to Corpus Stylistics: Towards the Creation of International Collaborative Network
语料库文体学的机器学习方法:迈向国际协作网络的创建
- 批准号:
18H00675 - 财政年份:2018
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
コーパスに基づく近代英語散文の通史的文体研究
基于语料库的现代英语散文的历史文体研究
- 批准号:
14710333 - 财政年份:2002
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
コーパス言語学的手法に基づくディケンズの文体研究のためのデータベース構築と応用
基于语料库语言学方法研究狄更斯风格的数据库构建及应用
- 批准号:
10710229 - 财政年份:1998
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似国自然基金
城市群文体公共设施资源配置优化研究
- 批准号:71874120
- 批准年份:2018
- 资助金额:50.0 万元
- 项目类别:面上项目
相似海外基金
わが国における文化芸術統計の体系化-理論的枠組みの構築と体系的統計データ集の作成-
日本文化艺术统计的系统化 - 建立理论框架并创建系统的统计数据收集 -
- 批准号:
23K01339 - 财政年份:2023
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Emergence and Expansion of "Readable Body" in the Modern World: A Historical Approach to the Origin of Biometrics
现代世界“可读身体”的出现和扩展:生物识别技术起源的历史途径
- 批准号:
20H01332 - 财政年份:2020
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Identification of genetic polymorphisms that are risk factors for neutropenia in TPF therapy
TPF 治疗中中性粒细胞减少症危险因素遗传多态性的鉴定
- 批准号:
19K18761 - 财政年份:2019
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
東北北部の縄文時代人口の推計および人口変動と祭祀や墓制の変化との関連性分析
东北北部绳文时代人口的推算及人口变化与仪式、坟墓制度变迁的关系分析
- 批准号:
19K01118 - 财政年份:2019
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Development of experiments designed for Project-based Learning (PBL) by means of Science Origami
通过 Science Origami 开发基于项目的学习 (PBL) 的实验
- 批准号:
17K01039 - 财政年份:2017
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)