§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2806201711572200
DOI 10.6846/TKU.2017.01001
論文名稱(中文) R軟體新詞產生套件開發:應用於PTT文章
論文名稱(英文) Development of New-Word Extraction Package in R with Application in PTT Articles
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 2
出版年 106
研究生(中文) 劉庭宇
研究生(英文) Ting-Yu Liu
學號 604650191
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2017-06-17
論文頁數 39頁
口試委員 指導教授 - 陳景祥
委員 - 何宗武
委員 - 李百靈
關鍵字(中) Rcpp
文字探勘
新詞
R套件
關鍵字(英) Rcpp
Text Mining
New words
R Package
第三語言關鍵字
學科別分類
中文摘要
目前一些萃取文本新詞的開源程式,都是以C++、JAVA以及Python來撰寫,原因在於無法在R中使用一些資料結構來儲存字串。 R軟體的Rcpp套件可以讓R串接使用其他程式語言的程式。本論文使用Rcpp讓R軟體能串接使用開放原始碼的Wordmaker C++程式, 並命名為wordmakerR,因使用鄰接熵(Branch Entropy)所擷取出的詞較多且有些許詞彙是不能成詞,因此本論文在Wordmaker的程式架構中加入給與詞頻閥值的機制來解決這個缺點。此套件還包含了兩個處理垃圾字串的函數。
    Rcpp這個API套件好用且直覺,能讓R與C++ 程式或函數庫的對接變得夠非常的容易。本篇所開發的套件可以擷取文本中新詞,直接在R中分析使用,且精簡了剔除無意義字串的步驟,在使用上面方便許多,只要輸入欲剔除的有關字詞就可刪除。本論文最後將wordmakerR應用在實例分析,搜集450000篇從批踢踢實業坊(PTT)八卦版、男女版以及女版的文章,搭配wordmakerR來做後續分析,總共找出1853筆新詞。這些新詞都是2016年到2017年四月份的時間所產生的。我們也個別比較了三個討論版的新詞增加速度與數量。八卦版每月平均243.57筆;男女版每月平均4.28筆;女版平均26.42筆,很明顯的,八卦版所產生的新詞速度最快且最多。
英文摘要
At present, open source programs that extract new Chinese words are mostly written in C ++, JAVA, and Python because they can not use some data structures in R to store strings, but luckily Rcpp package in R allows us to port functionalities of external programs written in other programming languages into R.

The main goal of our study is the development of a new R package wordmakerR, using Rcpp to port the C++-based open source project Wordmaker into R.

Since Wordmaker often generates many meaningless terms due to the use of Branch Entropy algorithm, we also develop a mechanism using word frequency threshold and two junk-word filtering functions to solve such problem. Hence, our wordmakeR package simplifies new term extraction process in R and ease the steps to remove the meaningless terms.

At the end of this study, we apply wordmakerR to analyze real-world data, including 450000 articles from the Gossiping, Boy-Girl  and Women forums in PTT discussion board web site.
第三語言摘要
論文目次
目錄
目錄	I
表目錄	III
圖目錄	IV
第一章、緒論	1
1.1 研究背景	1
1.2 研究動機與目的	2
1.3 論文結構	3
1.4 研究流程	3
第二章、文獻探討	5
2.1新詞萃取	5
2.1.1新詞萃取方法介紹	5
2.1.2鄰接熵Branch Entropy(BE)	7
2.2 Wordmaker詞語生成工具	9
2.2.1資料結構	9
2.2.2演算法流程	12
2.3 R軟體套件: Rcpp	14
第三章、新詞產生套件設計	15
3.1 R Package: wordmakerR	15
3.2套件測試結果	19
3.3研究工具	20
第四章、實例應用	21
4.1資料介紹	21
4.2詞庫介紹	21
4.3分析流程	22
4.3分析結果	23
4.3.1 PTT新詞	23
4.3.2各版新詞比較	32
第五章、結論	35
5.1結論	35
5.2未來展望	36
參考文獻	38

表目錄
表3-1 wordmakerR運行速度	19
表4-1 前100筆新詞	24
表4-2 前100筆新詞(續)	25
表4-3 前100筆新詞(續)	26
表4-4 後100筆新詞	28
表4-5 後100筆新詞(續)	29
表4-6 後100筆新詞(續)	30
表4-7 各版各月統計表	32

圖目錄
圖1-1 研究流程圖	4
圖2-1字典樹示意圖	10
圖2-2 雙數組字典樹示意圖	11
圖2-3 Wordmaker演算法流程	12
圖3-1 wordmakerR演算法流程	16
圖3-2 wordmakerR函數展示	17
圖4-1 分析流程圖	22
圖4-2 前100筆新詞文字雲	27
圖4-3 後100筆PPT新詞文字雲	31
圖4-4 各版新詞次數比較圖	33
圖4-5 八卦版2016年10月份新詞文字雲	34
圖4-6 女版2016年10月份新詞文字雲	34
參考文獻
參考文獻
英文文獻
1.Aoe, J. I. (1989). An efficient digital search algorithm by using a double-array structure. IEEE Transactions on Software Engineering, 15(9), 1066-1077.
2.Eddelbuettel, D., François, R., Allaire, J., Chambers, J., Bates, D., & Ushey, K. (2011). Rcpp: Seamless R and C++ integration. Journal of Statistical Software, 40(8), 1-18.
3.Fredkin, E. (1960). Trie memory. Communications of the ACM, 3(9), 490-499.
4.Huang, J. H., & Powers, D. (2003). Chinese word segmentation based on contextual entropy. In Proceedings of the 17th Asian Pacific conference on language, information and computation (pp. 152-158).
5.Shannon, C. E. (2001). A mathematical theory of communication. ACM SIGMOBILE Mobile Computing and Communications Review, 5(1), 3-55.
6.Team, R. C. (1999). Writing R extensions.
7.Wen, X. (2015). New Word Identification for Chinese Patents Based on Multiple Statistic Measures and Pattern Combination.
8.Ye, Y., Wu, Q., Li, Y., Chow, K. P., Hui, L. C., & Yiu, S. M. (2013). Unknown Chinese word extraction based on variety of overlapping strings. Information Processing & Management, 49(2), 497-512.
中文文獻
1.夭荣朋, 许国艳, & 宋健. (2016). 基于改进互信息和邻接熵的微博新词发现方法. 计算机应用, 0-0.
2.余爭, wordmaker, (2014), GitHub repository, https://github.com/jannson/wordmaker
3.张海军, 史树敏, 朱朝勇, & 黄河燕. (2010). 中文新词识别技术综述. 计算机科学, (3), 6-10..
4.刘剑, 唐慧丰, & 刘伍颖. (2014). 一种基于统计技术的中文术语抽取方法. 中国科技术语, 16(5), 10-14.
5.张海军, 彭成, & 栾静. (2011). 基于外部排序的字串左右熵快速计算方法. Computer Engineering and Applications, 47(19).
6.任禾, & 曾隽芳. (2006). 一种基于信息熵的中文高频词抽取算法. 中文信息学报, 20(5), 42-45.
7.顧森. (2012). 互聯網時代的社會語言學:基於SNS的文本數據挖掘. Retrieved from http://www.matrix67.com/blog/archives/5044
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信