§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2906202115111100
DOI 10.6846/TKU.2021.00814
論文名稱(中文) 應用台灣媒體資料分析討論度
論文名稱(英文) Analysis of discussion with Taiwan media data
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 109
學期 2
出版年 110
研究生(中文) 王品超
研究生(英文) Ping-Chau Wang
學號 606650215
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2021-06-16
論文頁數 64頁
口試委員 指導教授 - 陳景祥
委員 - 何宗武
委員 - 鄧文舜
關鍵字(中) 集群分析
文字探勘
大數據資料分析
隱含Dirichlet 配置模型
關鍵字(英) cluster analysis
text mining
big data analysis
Latent Dirichlet allocation
第三語言關鍵字
學科別分類
中文摘要
在當今網路興起的年代,資訊流動快速,使得網路對於人們的影響力快速增加,也形成了民眾透過網路、平板與手機觀看電視節目或使用社群網站參與節目討論的趨勢,人們可以透過各種社群平台抒發自己對於人事物的觀點與看法,像是網路上可觀看的新聞資訊或討論平台。在這些平台中的文章常涉及到近期發生的事件以及發表自己的言論,這些言論提供我們許多重要的資訊,對於每天不斷更新的事件話題匯集成大量資料的流量,人們被動接受到的新聞大多是討論度較高的新聞,本論文主要使用了集群分析與主題分析找到可能重要的變數,再搭配預測模型進行重要因素的選擇。
英文摘要
In today's era of the rise of the Internet, the rapid flow of information, making the network for the rapid increase in people's influence, has also created a trend of people watching TV programs via the Internet, phone or tablet and use social networking sites to participate in the discussion of the program.
People can express their views and opinions on people and things through various social platforms, such as news information or discussion platforms available on the Internet.
Articles on these platforms often involve recent events and publish their own comments. These comments provide us with a lot of important information. Regarding the flow of a large amount of data on the constantly updated topic of events every day, most of the news that people receive is discussion For news with a higher degree, this thesis mainly discusses the influence of the degree of news discussion, and what variables are affected by the difference between high and low.
第三語言摘要
論文目次
目錄	I
表目錄	III
圖目錄	IV
第一章	緒論	1
1.1	研究背景	1
1.2	研究動機與目的	1
1.3	論文架構	2
第二章	文獻探討	3
2.1 資料簡介	3
2.2 討論度	3
2.3文字探勘	4
2.4 關鍵詞提取	5
2.5 集群分析	6
2.6 隱含Dirichlet配置模型	7
2.7  隨機森林	9
第三章	研究方法	13
3.1 架構流程	13
3.2 討論度	13
3.3 資料處理	14
3.3.1數據清理	14
3.3.2語料庫整理	14
3.3.3 斷句	15
3.3.4 jiebaR斷詞	15
3.4 文本權重	15
3.5 集群分析(k-means)	16
3.6隱含Dirichlet 配置模型	18
3.7 隨機森林	18
第四章	分析結果	19
4.1 分析環境	19
4.2 資料處理	19
4.2.1資料描述	19
4.2.2 斷、停詞	21
4.2.3 Document-term matrix矩陣	21
4.2.4 詞雲圖(Word Cloud)	23
4.3 集群分析	24
4.4隱含Dirichlet 配置模型	28
4.5	計算討論度	31
4.5.1	資料前置處理	33
4.6決策樹	38
4.7	Bagging	43
4.8	隨機森林	46
4.8.1	調整隨機森林參數	49
4.9	分類方法比較	54
4.10	高討論度文章的特質	56
第五章	結論與未來展望	59
5.1 結論	59
5.2 未來展望	61
參考文獻	62
參考文獻
Olshen, L. B. J. F. R., and Stone, C. J., “Classification and Regression Trees”, Wadsworth, Belmont, CA,8-15, 1984.
Hsieh, W. T., Chou, S. C. T., Cheng, Y. H., & Wu, C. M. (2013). Predicting TV Audience Rating with Social Media. Workshop on Natural Language Processing for Social Media, Nagoya, Japa, 1-5.
Han, J., Kamber, M., and Pei, J., “Data Mining: Concepts and Techniques”,Morgna Kaufmann Publishers.
Han, E., Lee, S. E. (2014). Motivations for the complementary use of text-based media during linear TV viewing: An exploratory study. Computers in Human Behavior, 2, 235-243.
Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Belmont, CA: Wadsworth.25.
Cheng, M. H., Wu, Y. C., & Chen, M. C. (2016). Television Meets Facebook: The Correlation between TV Ratings and Social Media. American Journal of Industrial and Business Management, 6, 282-290.
Wen-Tai Hsieh., Seng-cho T. Chou., Yu-Hsuan Cheng., &Chen-Ming Wu.(2013). Predicting TV Audience Rating with Social Media
Rajiv Suresh (2015).”Tweeting for Tickets:” The Role of Social Media Marketing in Sports Franchises. 
鍾瑞益(2013)。運用新聞語意概念預測股價趨勢之研究。世新大學資訊管理學研 究所(含碩專班)碩士論文。
謝元晟,程美華,張光昭(2016). 運用 R 建立文字探勘平台應用於電視收視率預測
鄭宇君,陳恭,陳百齡(2017). 社群媒體巨量資料蒐集與分析— 以 Facebook 與 Twitter 為例
林昱伶,(2015). 以決策樹方法探討顧客消費行為之差異性 分析-以連鎖醫美診所為例. 東吳大學數學系碩士班碩士論文
余采蓓, 施俊名, 郭洪國雄,(2019). 運用文字探勘技術探討性相關議題之研究 ―以PTT論壇 feminine_sex板為例. 樹德科技大學人類性學研究所
邱怡菁,(2015). 以LDA為基之英文課程文字稿摘要法. 國立屏東大學資訊管理學系碩士班.
邱志洲, 高淩菁,(2016). 應用文字探勘技術分析口碑行銷對數位電視消費者觀看決策之影響(第2年). 國立臺北科技大學經營管理系.
廖瑋婕, (2018). 串流資料演算法於推薦系統的應用. 淡江大學統計學系應用統計學碩士班.
陳柏瑋, (2019). 在PTT平台上比較以分群為主的議題偵測方法. 淡江大學統計學系應用統計學碩士班
陳景祥, (2010), R 軟體:應用統計方法, 台灣東華.
陳景祥, (2018), R軟體:應用統計方法第二版, 台灣東華.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信