§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2906201721343400
DOI 10.6846/TKU.2017.01058
論文名稱(中文) 中文BR斷詞器之建置與應用—以批踢踢實業坊股票版為例
論文名稱(英文) Implementation and Application of a Binding Ratio Chinese Parser — A Case Study of PTT Stock Board
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 2
出版年 106
研究生(中文) 葉寶純
研究生(英文) Bao-Chun Ye
學號 605650133
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2017-06-27
論文頁數 63頁
口試委員 指導教授 - 林志娟
委員 - 林志鴻
委員 - 張慶暉
關鍵字(中) 文字探勘
自然語言處理
中文斷詞器
資料探勘
關鍵字(英) text mining
natural language processing
Chinese parser
data mining
第三語言關鍵字
學科別分類
中文摘要
任何分析中文文章方面的工作,都必須要能夠解析出文章中的詞彙,才有辦法進行後續處理,因此中文斷詞在中文自然語言的處理上,是相當基礎且重要的前置作業。本論文提出了一種改善中文斷詞的方式,透過BR比值公式轉化詞頻,之後搭配資料探勘中的集群分析(clustering)、決策樹(decision tree)、支持向量機(support vector machine)以及貝氏分類器(Bayes classifier)得到最佳的分群和分類,驗證的部分以正確率、精確率、召回率和綜合評價指標評估模型分類效果,即斷詞效果。
    以批踢踢實業坊股票版文章為例,在不需要提取大量文章訓練斷詞器的前提下,依照文章不同結構的比例提取貼文,經過公式轉換後,進行分群以及訓練分類器,實證結果顯示,在不需要大量的文章資料,跟現行常用的中文斷詞器相比較,本研究所提出的中文BR斷詞器亦能夠保持不錯的斷詞效果。
英文摘要
The efficiency of the full-text parser cannot be emphasized enough while working with natural language processing systems especially for Chinese articles. Inspired by the mutual information theory of Shannon (1949), this research proposes an adjusted form of point mutual information, called binding ratio. Incorporating with the cluster analysis, decision tree, support vector machine and Bayes classifier, the binding ratio Chinese parser enhances the word breaking performance in terms of the accuracy, precision, recall rate and f1-measure. The implementation and application has been provided using articles collected from Taiwan’s internet platform PTT stock board in this research.
第三語言摘要
論文目次
目錄
第一章 緒論	1
第一節 研究背景與動機	1
第二節 研究目的	4
第三節 研究架構	5
第二章 文獻探討	7
第一節 文字探勘與自然語言處理	7
第二節 斷詞法	9
第三節 相關問題	15
第三章 研究方法	17
第一節 研究架構	19
第二節 實驗文本	21
第三節 斷詞	21
第四節 分群與分類方法	26
第五節 模型評估	43
第四章 實證結果	46
第一節 資料來源	46
第二節 資料預處理	47
第三節 實證結果	50
第四節 實證結果比較	54
第五章 結論	57
第一節 結論與建議	57
第二節 未來研究方向與建議	58
參考文獻	59

表目錄
表 2 1文件矩陣	9
表 2 2 1常見已經被開發的斷詞分詞器	11
表 3 1台灣熱門論壇	18
表 3 5 1 混淆矩陣	43
表 4 3 1分群正確率比較表	51
表 4 3 2分群精確率、召回率和綜合評價指標比較表	52
表 4 3 3分類預測正確率比較表	53
表 4 3 4分類精確率、召回率和綜合評價指標比較表	53
表 4 4 1原始資料與經過資料轉換的正確率比較表	54
表 4 4 2原始資料與經過資料轉換的正確率比較表	55

圖目錄
圖1 1研究架構流程圖	6
圖2 1文字探勘基本流程圖	8
圖3 1批踢踢實業坊上線人數統計圖	17
圖3 2研究方法架構流程圖	20
圖 3 3批踢踢實業坊股票版中原始資料之示意圖	21
圖3 4決策樹的結構示意圖	31
圖3 5特徵映射示意圖	35
圖3 6支持向量機分類示意圖	36
圖4 1雙字詞之詞頻文件矩陣截圖	48
圖4 2加入人工標記之文件矩陣截圖	49
圖4 3經BR轉換之文件矩陣截圖	50
參考文獻
參考文獻
中文參考文獻
范長康, & 蔡文祥(1987)。以鬆弛法作中文斷詞。全國計算機會議論文集,423-431。
許菱祥(1970)。中文文法。大中國圖書公司。
彭維謙、劉士綱、杜協昌、翁稷安、項潔(2012)。自動擷取中文典籍中人名之嘗試:以PMI (Pointwise Mutual Information) 斷詞於《資治通鑑》的應用為例。第四屆數位典藏與數位人文國際研討會,台北。
英文參考文獻
Breiman, L., Friedman, J., Stone, C. J., & Olshen, R. A. (1984). Classification and regression trees. CRC press.
Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.
Chen, C. J., Bai, M. H., & Chen, K. J., (1997). Category Guessing for Chinese Unknown Words. Proceedings of the Natural Language Processing Pacific Rim Symposium, 35-40.
 
Chen, K. J., & Bai, M. H. (1998). Unknown word detection for Chinese by a corpus-based learning method. Journal of Computational Linguistics and Chinese Language Processing, 3(1), 27-44.
Chen, K. J., & Liu, S. H. (1992). Word identification for Mandarin Chinese sentences. Proceedings of the 14th conference on Computational linguistics 1, 101-107. Association for Computational Linguistics.
Chen, K. J., & Ma, W. Y. (2002). Unknown word extraction for Chinese documents. Proceedings of the 19th international conference on Computational linguistics 1, 1-7. Association for Computational Linguistics.
Chiang, T. H., Chang, J. S., Lin, M. Y., & Su, K. Y. (1992). STATISTICAL MODELS~ FOR WOFID SEGMENTATION AND UNKNOWN WORD RESOLUTION.
Han, J., & Kamber, M. (2000). Data mining: concepts and techniques (the Morgan Kaufmann Series in data management systems).
Li, M., Gao, J., Huang, C., & Li, J. (2003). Unsupervised training for overlapping ambiguity resolution in Chinese word segmentation. Proceedings of the second SIGHAN workshop on Chinese language processing 17, 1-7. Association for Computational Linguistics.
Luo, X., Sun, M., & Tsou, B. K. (2002). Covering ambiguity resolution in Chinese word segmentation based on contextual information. Proceedings of the 19th international conference on Computational linguistics 1, 1-7. Association for Computational Linguistics.
Ma, W. Y., & Chen, K. J. (2003). A bottom-up merging algorithm for Chinese unknown word extraction. Proceedings of the second SIGHAN workshop on Chinese language processing 17, 31-38. Association for Computational Linguistics.
Neyman, J., & Pearson, E. S. (1966). Joint statistical papers. University of California Press.
Nie, J. Y., Hannan, M. L., Jin, W. (1995). Combining dictionary, rules, and statistical information in segmentation of Chinese. Journal of Computer Processing of Chinese and Oriental Languages, 9(2), 125–143.
Peng, F., Feng, F., & McCallum, A. (2004). Chinese segmentation and new word detection using conditional random fields. Proceedings of the 20th international conference on Computational Linguistics, p. 562. Association for Computational Linguistics.
Quinlan, J. (1993). C4. 5: Programs for Machine Learning. C4. 5-programs for machine learning/J. Ross Quinlan.
Shannon, C. E., & Weaver, W. (1949). University of Illinois Press. Urbana, 104-107.
Sproat, R., & Shih, C. (1990). A statistical method for finding word boundaries in Chinese text. Journal of Computer Processing of Chinese and Oriental Languages, 4(4), 336-351. 
Tseng, H., Chang, P., Andrew, G., Jurafsky, D., & Manning, C. (2005). A conditional random field word segmenter for sighan bakeoff 2005. Proceedings of the fourth SIGHAN workshop on Chinese language Processing 171.
Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag, New York.
Yeh, C. L., & Lee, H. J. (1991). Rule-Based Word Identification for Mandarin Chinese Sentences - A Unification Approach. Journal of Computer Processing of Chinese and Oriental Languages, 5(2), 97-118.
Zhang, K., Liu, Q., Zhang, H., & Cheng, X. Q. (2002). Automatic recognition of Chinese unknown words based on roles tagging. Proceedings of the first SIGHAN workshop on Chinese language processing 18, 1-7. Association for Computational Linguistics.
Zheng, J. H., & Wu, F. F. (1999). Study on Segmentation of Ambiguous Phrases with the Combinatorial Type. Collections of Papers on Computational Linguistics. Tsinghua University Press, Beijing, 129-134.
 
網路資源
曾元顯(2012)。圖書館學與資訊科學大辭典。國家教育研究院。http://terms.naer.edu.tw/detail/1678997/
Quinlan, J. R. (2003), C5.0: An Informal Tutorial, Retrieved from https://www.rulequest.com/see5-unix.html.
Tsai, C. H. (1996), MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, http://technology.chtsai.org/mmseg/.
論文全文使用權限
校內
紙本論文於授權書繳交後5年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後5年公開
校外
同意授權
校外電子論文於授權書繳交後5年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信