系統識別號 | U0002-2906202115111100 |
---|---|
DOI | 10.6846/TKU.2021.00814 |
論文名稱(中文) | 應用台灣媒體資料分析討論度 |
論文名稱(英文) | Analysis of discussion with Taiwan media data |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系應用統計學碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 109 |
學期 | 2 |
出版年 | 110 |
研究生(中文) | 王品超 |
研究生(英文) | Ping-Chau Wang |
學號 | 606650215 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2021-06-16 |
論文頁數 | 64頁 |
口試委員 |
指導教授
-
陳景祥
委員 - 何宗武 委員 - 鄧文舜 |
關鍵字(中) |
集群分析 文字探勘 大數據資料分析 隱含Dirichlet 配置模型 |
關鍵字(英) |
cluster analysis text mining big data analysis Latent Dirichlet allocation |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
在當今網路興起的年代,資訊流動快速,使得網路對於人們的影響力快速增加,也形成了民眾透過網路、平板與手機觀看電視節目或使用社群網站參與節目討論的趨勢,人們可以透過各種社群平台抒發自己對於人事物的觀點與看法,像是網路上可觀看的新聞資訊或討論平台。在這些平台中的文章常涉及到近期發生的事件以及發表自己的言論,這些言論提供我們許多重要的資訊,對於每天不斷更新的事件話題匯集成大量資料的流量,人們被動接受到的新聞大多是討論度較高的新聞,本論文主要使用了集群分析與主題分析找到可能重要的變數,再搭配預測模型進行重要因素的選擇。 |
英文摘要 |
In today's era of the rise of the Internet, the rapid flow of information, making the network for the rapid increase in people's influence, has also created a trend of people watching TV programs via the Internet, phone or tablet and use social networking sites to participate in the discussion of the program. People can express their views and opinions on people and things through various social platforms, such as news information or discussion platforms available on the Internet. Articles on these platforms often involve recent events and publish their own comments. These comments provide us with a lot of important information. Regarding the flow of a large amount of data on the constantly updated topic of events every day, most of the news that people receive is discussion For news with a higher degree, this thesis mainly discusses the influence of the degree of news discussion, and what variables are affected by the difference between high and low. |
第三語言摘要 | |
論文目次 |
目錄 I 表目錄 III 圖目錄 IV 第一章 緒論 1 1.1 研究背景 1 1.2 研究動機與目的 1 1.3 論文架構 2 第二章 文獻探討 3 2.1 資料簡介 3 2.2 討論度 3 2.3文字探勘 4 2.4 關鍵詞提取 5 2.5 集群分析 6 2.6 隱含Dirichlet配置模型 7 2.7 隨機森林 9 第三章 研究方法 13 3.1 架構流程 13 3.2 討論度 13 3.3 資料處理 14 3.3.1數據清理 14 3.3.2語料庫整理 14 3.3.3 斷句 15 3.3.4 jiebaR斷詞 15 3.4 文本權重 15 3.5 集群分析(k-means) 16 3.6隱含Dirichlet 配置模型 18 3.7 隨機森林 18 第四章 分析結果 19 4.1 分析環境 19 4.2 資料處理 19 4.2.1資料描述 19 4.2.2 斷、停詞 21 4.2.3 Document-term matrix矩陣 21 4.2.4 詞雲圖(Word Cloud) 23 4.3 集群分析 24 4.4隱含Dirichlet 配置模型 28 4.5 計算討論度 31 4.5.1 資料前置處理 33 4.6決策樹 38 4.7 Bagging 43 4.8 隨機森林 46 4.8.1 調整隨機森林參數 49 4.9 分類方法比較 54 4.10 高討論度文章的特質 56 第五章 結論與未來展望 59 5.1 結論 59 5.2 未來展望 61 參考文獻 62 |
參考文獻 |
Olshen, L. B. J. F. R., and Stone, C. J., “Classification and Regression Trees”, Wadsworth, Belmont, CA,8-15, 1984. Hsieh, W. T., Chou, S. C. T., Cheng, Y. H., & Wu, C. M. (2013). Predicting TV Audience Rating with Social Media. Workshop on Natural Language Processing for Social Media, Nagoya, Japa, 1-5. Han, J., Kamber, M., and Pei, J., “Data Mining: Concepts and Techniques”,Morgna Kaufmann Publishers. Han, E., Lee, S. E. (2014). Motivations for the complementary use of text-based media during linear TV viewing: An exploratory study. Computers in Human Behavior, 2, 235-243. Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Belmont, CA: Wadsworth.25. Cheng, M. H., Wu, Y. C., & Chen, M. C. (2016). Television Meets Facebook: The Correlation between TV Ratings and Social Media. American Journal of Industrial and Business Management, 6, 282-290. Wen-Tai Hsieh., Seng-cho T. Chou., Yu-Hsuan Cheng., &Chen-Ming Wu.(2013). Predicting TV Audience Rating with Social Media Rajiv Suresh (2015).”Tweeting for Tickets:” The Role of Social Media Marketing in Sports Franchises. 鍾瑞益(2013)。運用新聞語意概念預測股價趨勢之研究。世新大學資訊管理學研 究所(含碩專班)碩士論文。 謝元晟,程美華,張光昭(2016). 運用 R 建立文字探勘平台應用於電視收視率預測 鄭宇君,陳恭,陳百齡(2017). 社群媒體巨量資料蒐集與分析— 以 Facebook 與 Twitter 為例 林昱伶,(2015). 以決策樹方法探討顧客消費行為之差異性 分析-以連鎖醫美診所為例. 東吳大學數學系碩士班碩士論文 余采蓓, 施俊名, 郭洪國雄,(2019). 運用文字探勘技術探討性相關議題之研究 ―以PTT論壇 feminine_sex板為例. 樹德科技大學人類性學研究所 邱怡菁,(2015). 以LDA為基之英文課程文字稿摘要法. 國立屏東大學資訊管理學系碩士班. 邱志洲, 高淩菁,(2016). 應用文字探勘技術分析口碑行銷對數位電視消費者觀看決策之影響(第2年). 國立臺北科技大學經營管理系. 廖瑋婕, (2018). 串流資料演算法於推薦系統的應用. 淡江大學統計學系應用統計學碩士班. 陳柏瑋, (2019). 在PTT平台上比較以分群為主的議題偵測方法. 淡江大學統計學系應用統計學碩士班 陳景祥, (2010), R 軟體:應用統計方法, 台灣東華. 陳景祥, (2018), R軟體:應用統計方法第二版, 台灣東華. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信