系統識別號 | U0002-2806201711572200 |
---|---|
DOI | 10.6846/TKU.2017.01001 |
論文名稱(中文) | R軟體新詞產生套件開發:應用於PTT文章 |
論文名稱(英文) | Development of New-Word Extraction Package in R with Application in PTT Articles |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系應用統計學碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 105 |
學期 | 2 |
出版年 | 106 |
研究生(中文) | 劉庭宇 |
研究生(英文) | Ting-Yu Liu |
學號 | 604650191 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2017-06-17 |
論文頁數 | 39頁 |
口試委員 |
指導教授
-
陳景祥
委員 - 何宗武 委員 - 李百靈 |
關鍵字(中) |
Rcpp 文字探勘 新詞 R套件 |
關鍵字(英) |
Rcpp Text Mining New words R Package |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
目前一些萃取文本新詞的開源程式,都是以C++、JAVA以及Python來撰寫,原因在於無法在R中使用一些資料結構來儲存字串。 R軟體的Rcpp套件可以讓R串接使用其他程式語言的程式。本論文使用Rcpp讓R軟體能串接使用開放原始碼的Wordmaker C++程式, 並命名為wordmakerR,因使用鄰接熵(Branch Entropy)所擷取出的詞較多且有些許詞彙是不能成詞,因此本論文在Wordmaker的程式架構中加入給與詞頻閥值的機制來解決這個缺點。此套件還包含了兩個處理垃圾字串的函數。 Rcpp這個API套件好用且直覺,能讓R與C++ 程式或函數庫的對接變得夠非常的容易。本篇所開發的套件可以擷取文本中新詞,直接在R中分析使用,且精簡了剔除無意義字串的步驟,在使用上面方便許多,只要輸入欲剔除的有關字詞就可刪除。本論文最後將wordmakerR應用在實例分析,搜集450000篇從批踢踢實業坊(PTT)八卦版、男女版以及女版的文章,搭配wordmakerR來做後續分析,總共找出1853筆新詞。這些新詞都是2016年到2017年四月份的時間所產生的。我們也個別比較了三個討論版的新詞增加速度與數量。八卦版每月平均243.57筆;男女版每月平均4.28筆;女版平均26.42筆,很明顯的,八卦版所產生的新詞速度最快且最多。 |
英文摘要 |
At present, open source programs that extract new Chinese words are mostly written in C ++, JAVA, and Python because they can not use some data structures in R to store strings, but luckily Rcpp package in R allows us to port functionalities of external programs written in other programming languages into R. The main goal of our study is the development of a new R package wordmakerR, using Rcpp to port the C++-based open source project Wordmaker into R. Since Wordmaker often generates many meaningless terms due to the use of Branch Entropy algorithm, we also develop a mechanism using word frequency threshold and two junk-word filtering functions to solve such problem. Hence, our wordmakeR package simplifies new term extraction process in R and ease the steps to remove the meaningless terms. At the end of this study, we apply wordmakerR to analyze real-world data, including 450000 articles from the Gossiping, Boy-Girl and Women forums in PTT discussion board web site. |
第三語言摘要 | |
論文目次 |
目錄 目錄 I 表目錄 III 圖目錄 IV 第一章、緒論 1 1.1 研究背景 1 1.2 研究動機與目的 2 1.3 論文結構 3 1.4 研究流程 3 第二章、文獻探討 5 2.1新詞萃取 5 2.1.1新詞萃取方法介紹 5 2.1.2鄰接熵Branch Entropy(BE) 7 2.2 Wordmaker詞語生成工具 9 2.2.1資料結構 9 2.2.2演算法流程 12 2.3 R軟體套件: Rcpp 14 第三章、新詞產生套件設計 15 3.1 R Package: wordmakerR 15 3.2套件測試結果 19 3.3研究工具 20 第四章、實例應用 21 4.1資料介紹 21 4.2詞庫介紹 21 4.3分析流程 22 4.3分析結果 23 4.3.1 PTT新詞 23 4.3.2各版新詞比較 32 第五章、結論 35 5.1結論 35 5.2未來展望 36 參考文獻 38 表目錄 表3-1 wordmakerR運行速度 19 表4-1 前100筆新詞 24 表4-2 前100筆新詞(續) 25 表4-3 前100筆新詞(續) 26 表4-4 後100筆新詞 28 表4-5 後100筆新詞(續) 29 表4-6 後100筆新詞(續) 30 表4-7 各版各月統計表 32 圖目錄 圖1-1 研究流程圖 4 圖2-1字典樹示意圖 10 圖2-2 雙數組字典樹示意圖 11 圖2-3 Wordmaker演算法流程 12 圖3-1 wordmakerR演算法流程 16 圖3-2 wordmakerR函數展示 17 圖4-1 分析流程圖 22 圖4-2 前100筆新詞文字雲 27 圖4-3 後100筆PPT新詞文字雲 31 圖4-4 各版新詞次數比較圖 33 圖4-5 八卦版2016年10月份新詞文字雲 34 圖4-6 女版2016年10月份新詞文字雲 34 |
參考文獻 |
參考文獻 英文文獻 1.Aoe, J. I. (1989). An efficient digital search algorithm by using a double-array structure. IEEE Transactions on Software Engineering, 15(9), 1066-1077. 2.Eddelbuettel, D., François, R., Allaire, J., Chambers, J., Bates, D., & Ushey, K. (2011). Rcpp: Seamless R and C++ integration. Journal of Statistical Software, 40(8), 1-18. 3.Fredkin, E. (1960). Trie memory. Communications of the ACM, 3(9), 490-499. 4.Huang, J. H., & Powers, D. (2003). Chinese word segmentation based on contextual entropy. In Proceedings of the 17th Asian Pacific conference on language, information and computation (pp. 152-158). 5.Shannon, C. E. (2001). A mathematical theory of communication. ACM SIGMOBILE Mobile Computing and Communications Review, 5(1), 3-55. 6.Team, R. C. (1999). Writing R extensions. 7.Wen, X. (2015). New Word Identification for Chinese Patents Based on Multiple Statistic Measures and Pattern Combination. 8.Ye, Y., Wu, Q., Li, Y., Chow, K. P., Hui, L. C., & Yiu, S. M. (2013). Unknown Chinese word extraction based on variety of overlapping strings. Information Processing & Management, 49(2), 497-512. 中文文獻 1.夭荣朋, 许国艳, & 宋健. (2016). 基于改进互信息和邻接熵的微博新词发现方法. 计算机应用, 0-0. 2.余爭, wordmaker, (2014), GitHub repository, https://github.com/jannson/wordmaker 3.张海军, 史树敏, 朱朝勇, & 黄河燕. (2010). 中文新词识别技术综述. 计算机科学, (3), 6-10.. 4.刘剑, 唐慧丰, & 刘伍颖. (2014). 一种基于统计技术的中文术语抽取方法. 中国科技术语, 16(5), 10-14. 5.张海军, 彭成, & 栾静. (2011). 基于外部排序的字串左右熵快速计算方法. Computer Engineering and Applications, 47(19). 6.任禾, & 曾隽芳. (2006). 一种基于信息熵的中文高频词抽取算法. 中文信息学报, 20(5), 42-45. 7.顧森. (2012). 互聯網時代的社會語言學:基於SNS的文本數據挖掘. Retrieved from http://www.matrix67.com/blog/archives/5044 |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信