淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


系統識別號 U0002-2607202018113300
中文論文名稱 運用非監督式學習強化斷詞系統-以PTT資料為例
英文論文名稱 Application of Unsupervised Learning to Reinforce Chinese Text Segment System - The Case Study of PTT Data
校院名稱 淡江大學
系所名稱(中) 大數據分析與商業智慧碩士學位學程
系所名稱(英) Master's Program In Big Data Analytics and Business Intelligence
學年度 108
學期 2
出版年 109
研究生中文姓名 林延修
研究生英文姓名 Yen-Hsiu Lin
學號 608890017
學位類別 碩士
語文別 中文
口試日期 2020-07-01
論文頁數 56頁
口試委員 指導教授-陳景祥
共同指導教授-李百靈
委員-何宗武
委員-鄧文舜
中文關鍵字 監督式學習  非監督式學習  詞庫建立  文字評估指標  人工斷詞 
英文關鍵字 supervised learning  unsupervised learning  created lexicon  word evaluation indicator  artificial segmentation 
學科別分類
中文摘要 隨著網路快速的發展,已有許多人是藉由網路來抒發自己的情緒及想法,此時分析網路中的資料顯得格外重要,也常使用到文字探勘中「斷詞」的技術。斷詞往往沒有一個明確的斷詞系統或是詞庫進行使用,因此本研究提出了兩階段斷詞,是使用非監督式及監督式斷詞系統所結合而成。
我們希望藉由此兩階段斷詞形成研究文章的專屬詞庫,同時從監督式斷詞系統中選出最適合該研究文章的斷詞系統,將可以節省挑選「較適合」詞庫的時間,也能省下挑選斷詞系統的時間。
研究結果確實能形成9.7萬個詞的詞庫,也改善了一般斷詞系統較容易斷出二字詞的缺點,同時能找出有意義且較長的詞彙。在評估方面,將以人工斷詞為基礎進行召回率(recall)、精確率(precision)及F值(F-measure)的計算,發現使用本研究所建議之詞庫及斷詞法,在代表整體表現的F值上將能提升11%左右。
英文摘要 With the rapid development of the internet, many people have used the internet to express their emotions and ideas. At this time, it is extremely important to analyze the data on the internet, and the “segmentation technique” is also commonly used for Chinese expressions. However, word segmentation is often used without a clear word segmentation system or lexicon, so this study proposes a two-stage word segmentation technique, which is a combination of unsupervised and supervised word segmentation systems.
It is hoped that the two-stage word segmentation will form an exclusive lexicon for research articles. At the same time, it can also select the word segmentation system that is most suitable for the research article from the supervised word segmentation system. This not only saves time for selecting the “more suitable” lexicon, but also saves time in selecting the word segmentation system.
Our research results indeed form a lexicon of 97,000 words, and also improve the shortcomings of the general word segmentation system that is easier to segment two-word terms and can find meaningful and long terms. In terms of evaluation, the calculation of recall, precision and F-measure are based on artificial word segmentation. It is found that the use of the lexicon and the word segmentation system recommended by this research will increase the F-measure representing the overall performance by as much as 11%.
論文目次 目錄
第一章、緒論 1
第一節、研究背景 1
第二節、研究動機 2
第三節、研究流程 3
第二章、文獻探討 4
第一節、中文斷詞常見問題 4
2.1.1、歧異性 4
2.1.2、未知詞 5
第二節、中文斷詞種類 6
2.2.1、法則式斷詞 6
2.2.2、統計式斷詞 6
2.2.3、混合式斷詞 7
第三節、監督式斷詞系統 8
2.3.1、Jieba斷詞系統 8
2.3.2、CKIP斷詞系統 9
2.3.3、Pkuseg斷詞系統 9
第四節、非監督式斷詞系統 10
2.4.1、TopWORDS斷詞系統 10
第五節、斷詞演算法 12
2.5.1、有向無環圖 12
2.5.2、隱藏式馬可夫模型 13
2.5.3、維特比演算法 17
2.5.4、條件隨機域 18
2.5.5、文字辭典模型 20
2.5.6、最大期望演算法 21
第三章、研究方法 25
第一節、研究架構 25
第二節、資料蒐集 29
第三節、評估標準 30
3.3.1、集合與非集合之評估標準 30
3.3.2、召回率 34
3.3.3、精確率 34
3.3.4、F值 34
第四章、研究結果 35
第一節、實驗環境 35
第二節、資料敘述 35
第三節、實證結果 37
第四節、斷詞法比較 47
第五節、小結 49
第五章、結論與建議 52
第一節、結論 52
第二節、建議與未來展望 53
參考文獻 54
中文文獻 54
網站文獻 54
英文文獻 55

表目錄
表 1 PLAN函數速度比較 29
表 2集合與非集合式計算評估值 33
表 3資料中「內容」的字數摘要 36
表 4資料中「留言」的字數摘要 36
表 5非監督式詞庫中二字詞至六字詞的10個詞 39
表 6非監督式詞庫中七字詞至八字詞的10個詞 39
表 7綜合詞庫中二字詞至六字詞的10個詞 43
表 8綜合詞庫中七字詞至十一字詞的10個詞 43
表 9使用不同詞庫之評估值與彙整 46
表 10監督式斷詞法之評估值與彙整 47
表 11監督式斷詞法之斷詞時間 48
表 12監督式斷詞法之一二字詞個數 48
表 13使用不同詞庫之總詞數摘要 49
表 14使用綜合詞庫之總詞數減少比例 49
表 15不同詞庫對應不同斷詞者與斷詞篇數之評估值與彙整 51

圖目錄
圖 1研究流程圖 3
圖 2有向無環圖 12
圖 3馬可夫模型 13
圖 4馬可夫模型-給定起始值 14
圖 5隱藏式馬可夫模型-新增變數 15
圖 6隱藏式馬可夫模型-給定新變數機率 16
圖 7研究架構圖 25
圖 8第一階段斷詞流程 26
圖 9第二階段斷詞流程 27
圖 10 評估過程 28
圖 11測試文章人工斷詞 31
圖 12測試文章系統斷詞 31
圖 13非監督式詞庫之詞彙長度及個數 37
圖 14非監督式詞庫之詞彙長度比例 38
圖 15綜合詞庫之詞彙長度及個數 41
圖 16綜合詞庫之詞彙長度比例 42
圖 17各監督式斷詞法包含綜合詞庫比例 44
圖 18 PKUSEG斷詞法搭配綜合詞庫之斷詞結果 45
圖 19 PKUSEG斷詞法搭配自定義詞庫之斷詞結果 45
圖 20人工斷詞之斷詞結果 45
圖 21最少字數文章使用綜合詞庫之斷詞結果 50
圖 22最少字數文章使用自定義詞庫之斷詞結果 50
參考文獻 參考文獻
中文文獻
吳冠輝,2019。基於兩詞彙的序列關係建造非監督式 SeqWORDS 斷詞方法,國立政治大學統計學研究所碩士學位論文。
邱兆揚,2006。利用Google互聯網分類新聞語料之新詞自動擷取技術支援詞庫式中文斷詞系統,國立臺灣師範大學應用電子科技研究所。
林渝翔,2011。一個產生長詞與新詞的中文混合斷詞系統,元智大學資訊管理學系碩士班。
陳鍾誠、許聞廉,1998。結合統計與規則的多層次中文斷詞系統,中央研究院資訊科學研究所。
梁婷、葉大榮,2000。應用構詞法則與類神經網路於中文新詞萃取,國立交通大學資訊科學系。
陳稼興、謝佳倫、許芳誠,2000。以遺傳演算法為基礎的中文斷詞研究,資訊管理研究第二卷第二期,pp.27-44。
陳恩齊,2019。中文斷詞方法對情感分析的影響,淡江大學商管學院大數據分析與商業智慧碩士學位學程碩士論文。

網站文獻
劉玉琛(1977)。標點符號用法。臺北市:國語日報社。
馬可夫模型和隱藏式馬可夫模型說明文章。檢自
http://www.csie.ntnu.edu.tw/~u91029/HiddenMarkovModel.html
Shih Jyun Yeo. (2019). Parallel Searching and Crawling Data from PTT. Retrieved from
https://github.com/shihjyun/PTTmineR(2019-2020)

英文文獻
Chen, Y., Zheng, Q., Tian, F., & Zheng, D. (2016). A Segmentation Matrix Method for Chinese Segmentation Ambiguity Analysis. IJCLCLP, 21.
Dempster, A., Laird, N., & Rubin, D. (1977). Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society. Series B (Methodological), 39(1), 1-38.
Deng, K., Bol, P.K., Li, K.J., & Liu, J.S. (2016). On the unsupervised analysis of domain-specific Chinese texts. Proceedings of the National Academy of Sciences, 113, 6154 - 6159.
Goh, C., Asahara, M., & Matsumoto, Y. (2004). Chinese Word Segmentation by Classification of Characters. IJCLCLP, 10.
John D. Lafferty, Andrew McCallum, & Fernando C. N. Pereira. (2001). Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. In Proceedings of the Eighteenth International Conference on Machine Learning (ICML ’01). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 282–289.
Li, G. C., K. Y. Liu and Y. K. Zhang. (1988) Identifying Chinese Word and Processing Different Meaning Structures. Journal of Chinese Information Processing, Vol. 2, pp. 45-53.
Luo, R., Xu, J., Zhang, Y., Ren, X., & Sun, X. (2019). PKUSEG: A Toolkit for Multi-Domain Chinese Word Segmentation. ArXiv, abs/1906.11455.
Ma, W., & Chen, K. (2004). Design of CKIP Chinese Word Segmentation System. J. Chin. Lang. Comput., 14.
Viterbi. A. (1967). Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. In IEEE Transactions on Information Theory, vol. 13, no. 2, pp. 260-269
Xu Sun, Houfeng Wang, & Wenjie Li. (2012). Fast online training with frequency-adaptive learning rates for Chinese word segmentation and new word detection. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers - Volume 1 (ACL ’12). Association for Computational Linguistics, USA, 253–262.
Yang, C.C., & Li, K.W. (2003). Segmenting Chinese Unknown Words by Heuristic Method. ICADL.
Yeh C. L. and H. J. Lee. (1991). Rule-Based Word Identification for Mandarin Chinese Sentences-A Unification Approach. Computer Processing of Chinese and Oriental Languages, Vol. 5, No. 2, pp. 97-118.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2023-08-01公開。
  • 同意授權瀏覽/列印電子全文服務,於2023-08-01起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信