系統識別號 | U0002-0408201014550600 |
---|---|
DOI | 10.6846/TKU.2010.00098 |
論文名稱(中文) | 詞性標記的進階分析 |
論文名稱(英文) | Advanced Analysis on POS Tagging |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 資訊工程學系碩士班 |
系所名稱(英文) | Department of Computer Science and Information Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 98 |
學期 | 2 |
出版年 | 99 |
研究生(中文) | 張哲嘉 |
研究生(英文) | Che-Chia Chang |
學號 | 697410818 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | 英文 |
口試日期 | 2010-06-29 |
論文頁數 | 74頁 |
口試委員 |
指導教授
-
郭經華
委員 - 郭經華 委員 - 陳孟彰 委員 - 蔡憶佳 委員 - 楊接期 |
關鍵字(中) |
TnT標記器 馬可夫模型標記器 字彙資訊 相對機率的比值 |
關鍵字(英) |
TnT Tagger Markov Model Tagger Lexical Information Relative Probability Ratio |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
本論文提出一個演算法去改善原模型(馬可夫模型標記器、TnT標記器)的詞性標記的準確率,並以七個錯誤率較高的特徵字作為研究對象。所設計的演算法是透過原標記器去標記句子裡每一個單字的詞性,再利用字彙資訊與相對機率比值,給予特徵字有第二次標記的機會。 數據探討分成兩部分,分別為(一)七個特徵字在馬可夫模型標記器伴隨字彙資訊與馬可夫標記器的整體錯誤率比較;(二) 七個特徵字在TnT標記器伴隨字彙資訊與TnT標記器的整體錯誤率比較。經數據的分析顯示,我們的演算法確實可以提升標記器的準確率。 |
英文摘要 |
This paper presents an algorithm to improve the original model (Markov model tagger, TnT tagger) of accuracy of speech tags and take the higher error rate feature word as the object of study. The algorithm we designed is through the original tagger to tag the part of speech of each word in the sentence and then use lexical information and relative probability ratio to give the feature word a second tagged chance. The probing of data is divided in two parts, respectively ( a ) Comparison of the overall error rate of seven feature words in Markov model tagger with lexical information and Markov model tagger, ( b ) Comparison of the overall error rate of seven feature words in TnT tagger with lexical information and TnT tagger. The data analysis shows that our algorithm can improve the accuracy of tagger exactly. |
第三語言摘要 | |
論文目次 |
第1章 緒論 1 1.1 研究動機 1 1.2 研究目的 2 1.3 研究內容 3 1.4 研究大綱 4 第2章 知識背景與相關研究 5 第3章 研究內容與流程 7 3.1 英文句子來源及前置處理 10 3.2 詞性標記 12 3.2.1 基於馬可夫詞性標記 13 3.2.2 TnT詞性標記 17 3.2.3 未知字處理 21 3.3 字彙資訊 23 3.4 相對機率的比值 25 第4章 研究數據與結果 27 4.1 BNC語料庫前置處理結果 27 4.2 訓練資料的結果 28 4.3 詞性標記的結果 31 4.3.1 單字的錯誤資訊 32 4.3.2 單字的錯誤率 34 4.4 字彙資訊訓練資料的結果 35 4.5 研究結果與探討 37 4.5.1 特徵字在兩個詞性標記模型的分析 38 4.5.2 詞性標記伴隨前後一項字彙資訊的結果分析 41 4.5.3 詞性標記伴隨前後兩項字彙資訊的結果分析 59 第5章 結論與未來研究方向 62 5.1 結論 62 5.2 未來研究方向 62 參考文獻 64 附錄-英文論文 66 圖目錄 圖 3.1-1 BNC語料庫儲存形式 10 圖 4.1-1 BNC語料庫處理後結果 27 圖 4.2-1 詞性在BNC出現的頻率 28 圖 4.2-2 單字在BNC出現的頻率 28 圖 4.2-3 單字為某一詞性出現的頻率 29 圖 4.2-4 詞性2伴隨詞性1出現的頻率 29 圖 4.2-5 詞性3伴隨詞性1和詞性2出現的頻率 29 圖 4.2-6 單字為某一詞性出現的機率 30 圖 4.2-7 詞性2伴隨詞性1出現的機率 30 圖 4.2-8 詞性3伴隨詞性1和詞性2出現的機率 30 圖 4.3-1 基於馬可夫模型詞性標記的結果 31 圖 4.3-2 TnT詞性標記的結果 31 圖 4.3.1-3 基於馬可夫模型詞性標記的錯誤統計結果 33 圖 4.3.1-4 TnT型詞性標記的錯誤統計結果 33 圖 4.3.1-5 單字的錯誤率 34 圖 4.4-1 more為某一詞性與前一項一起出現總數 35 圖 4.4-2 more為某一詞性與前兩項一起出現總數 35 圖 4.4-3 more為某一詞性與後一項一起出現總數 36 圖 4.4-4 more為某一詞性與後兩項一起出現總數 36 表目錄 表 4.5.1-1 more在MM標記的數據 38 表 4.5.1-2 more在TnT標記的數據 38 表 4.5.1-3 七個特徵字在MM的整體表現 39 表 4.5.1-4 七個特徵字在TnT的整體表現 39 表 4.5.2-1 在MM&L下,特徵字more看前一項字彙資訊與門檻值的數據 42 表 4.5.2-2 MM與M&L(前一項)標記結果比對情形一 43 表 4.5.2-3 MM與M&L(前一項)標記結果比對情形二 44 表 4.5.2-4 MM與M&L(前一項)標記結果比對情形三 44 表 4.5.2-5 MM與M&L(前一項)標記結果比對情形四 45 表 4.5.2-6 在MM&L下,特徵字more在MM伴隨前一項字彙的數據及錯誤率 46 表 4.5.2-7 在MM&L下,特徵字more看後一項字彙資訊與門檻值的數據 47 表 4.5.2-8 MM與M&L(後一項)標記結果比對情形一 48 表 4.5.2-9 MM與M&L(後一項)標記結果比對情形二 48 表 4.5.2-10 特徵字more在MM伴隨後一項字彙的數據及錯誤率 49 表 4.5.2-11 在MM&L下,七個特徵字看字彙資訊(前一或後一)的方向 50 表 4.5.2-12 七個特徵字在門檻值的整體表現(MM伴隨前一或後一字彙資訊) 51 表 4.5.2-13 七個特徵字經過MM伴隨字彙資訊(前一或後一)的整體數據 51 表 4.5.2-14 在TnT&L下,特徵字more看前一項字彙資訊與門檻值的數據 52 表 4.5.2-15 TnT與TnT&L(前一項)標記結果比對情形一 53 表 4.5.2-16 TnT與TnT&L(前一項)標記結果比對情形二 53 表 4.5.2-17 特徵字more在TnT伴隨前一項字彙的數據及錯誤率 54 表 4.5.2-18 在TnT&L下,特徵字more看後一項字彙資訊與門檻值的數據 55 表 4.5.2-19 TnT與TnT&L(後一項)標記結果比對情形一 56 表 4.5.2-20 TnT與TnT&L(後一項)標記結果比對情形二 56 表 4.5.2-21 特徵字more在TnT伴隨後一項字彙的數據及錯誤率 57 表 4.5.2-22 在TnT&L下,七個特徵字看字彙資訊(前一或後一)的方向 58 表 4.5.2-23 七個特徵字在門檻值的整體表現(TnT伴隨前一或後一字彙資訊) 58 表 4.5.2-24 七個特徵字經過TnT伴隨字彙資訊(前一或後一)的整體數據 58 表 4.5.3-1 (在MM下)七個特徵字看字彙資訊(前二或後二)的方向 59 表 4.5.3-2 七個特徵字在門檻值的整體表現(MM伴隨前二或後二字彙資訊) 60 表 4.5.3-3 七個特徵字經過MM伴隨字彙資訊(前二或後二)的整體數據 60 表 4.5.3-4 (在TnT下)七個特徵字看字彙資訊(前二或後二)的方向 61 表 4.5.3-5 七個特徵字在門檻值的整體表現(TnT伴隨前二或後二字彙資訊) 61 表 4.5.3-6 七個特徵字經過TnT伴隨字彙資訊(前二或後二)的整體數據 61 |
參考文獻 |
[1]Robert Dale, Hermann Moisl, and Harold Somers, 2000, Handbook of Natural Language Processing, 1nd ed, New York, Marcel Dekker, 968p. [2]我愛自然語言 http://www.52nlp.cn/ [3]D. Manning, Hinrich Schuetze, 1999, Foundations of Statistical Natural Language Processing, 2nd ed, America, The MIT Press, 718p. [4]Charniak, Eugene, Curtis Hendrickson, Neil Jacobson, and Mike Perkowitz. 1993 Equations for part-of-speech tagging. In Proceedings of the Eleventh Conference on Artificial Intelligence, pp. 784-789, Menlo Park, CA. [5]Thorsten.Brants, TnT-A Statistical Part-of-Speech Tagger.In Proceedings of the Sixth Applied Natrual Language Processing Conference ANLP-2000, Seatle,WA, 2000. [6]Nai-Lung TSAO, Chin-Hwa KUO, Anne Li-E LIU, David WIBLE, Yu-Tuan LU. (2009)” Error-Driven Incidental Language Learning: Learning Collocation from Movies”. Proceedings of the 17th International Conference on Computers in Education [CDROM],136-162 [7]Chia-ling Chang, 2009, A Study of the POS Keyword Caption Effect on Listening Comprehension Network Learning, Technology, National Central University, Taipei, Taiwan. 144 p [8]Hung Tsung-Fu, Chiou Yan-Shiang, Kuo Chin-Hwa, Tsao Nai-Lung,“A Personalized Movies System for English Learning,” International Computer Symposiums ICS-2008, Taiwan, Nov 13-15, 2008. [9]Doug Cutting, Julian Kupiec, Jan Pedersen, and Penelope Sibun. 1992. A practical part-of-speech tagger. In Proceedings of the 3rd Conference on Applied Natural Language Processing (ACL), pages 133-140. [10]Helmut Schmid. 1995. Improvements in part-ofspeech tagging with an application to German. In Helmut Feldweg and Erhard Hinrichts, editors, Lexikon und Text. Niemeyer, Tfibingen. [11]Martin Volk and Gerold Schneider. 1998. Comparing a statistical and a rule-based tagger for german. In Proceedings of KONVENS-98, pages 125-137, Bonn. [12]Brill, E. (1992) 'A simple rule-based part-of-speech tagger'. Proceedings Third ACL Applied, Trento, Italy, 152-155. [13]Walter Daelemans, Jakub Zavrel, Peter Berck, and Steven Gillis. 1996. Mbt: A memory-based part of speech tagger-generator. In Proceedings of the Workshop on Very Large Corpora, Copenhagen, Denmark. [14]SchÄutze, H., & Singer, Y. (1994). Part-of-speech tagging using a variable memory Markov model. In Proceedings of the 32nd Conference on Association for Computational Linguistics, pp. 181-187. Association for Computational Linguistics. [15]Adwait Ratnaparkhi. 1996. A maximum entropy model for part-of-speech tagging. In Proceedings of the Conference on Empirical Methods in Natural Language Processing EMNLP-96, Philadelphia, PA. [16]Eric Brill. 1994. Some Advances in Transformation-Based Part of Speech Tagging. In Proceedings off the Twelfth National Conference on Artificial Intelligence, volume 1, pages 722-727. [17]BNC - British National Corpus http://www.natcorp.ox.ac.uk [18]The BNC Basic (C5) Tagset http://www.natcorp.ox.ac.uk/docs/c5spec.html [19]Franz, Alexander. 1996. Automatic Ambiguity Resolution in Natural Language Processing, volume 1171 of Lecture Notes in Artificial Intelligence. Berlin: Springer Verlag. [20]Franz, Alexander. 1997. Independence assumptions considered harmful. In ACL35/EACLS, pp. 182-189. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信