系統識別號 | U0002-0708201813110800 |
---|---|
DOI | 10.6846/TKU.2018.00237 |
論文名稱(中文) | 基於主題目模型的用戶分群應用 |
論文名稱(英文) | Application of User Clustering Based on Topic Modeling |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系應用統計學碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 106 |
學期 | 2 |
出版年 | 107 |
研究生(中文) | 林子敬 |
研究生(英文) | Tzu-Ching Lin |
學號 | 605650042 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2018-07-17 |
論文頁數 | 40頁 |
口試委員 |
指導教授
-
陳景祥
委員 - 李百靈 委員 - 何宗武 |
關鍵字(中) |
主題模型 文字探勘 用戶分群 集群分析 |
關鍵字(英) |
topic model text mining user clustering cluster analysis |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
隨著網路科技的進步,社群網路媒體已廣為大眾使用。人們在社群網路,如:facebook、twitter等,發表自己的言論。這些言論可以反映出用戶們的許多資訊,例如:喜歡的事物、理念傾向等。我們亦可運用這些資訊將用戶們分群後,以利後續的研究分析或獲取商業利益。在本篇中,我們藉由蒐集用戶在社群網路中所發的文章並運用主題模型來進行用戶們的分析,找出各用戶常用的主題字彙後,再使用集群分析,如:k-means、affinity propagation等方法將相似的用戶們進行分群。我們也探討加入時間後,在各個時間區間下,觀察用戶們主題以及分群的變化。最後,本篇也使用了PTT的資料,呈現出中文的文章在運用此方法下,用戶分群的效果以及發現。 |
英文摘要 |
With the advancement of network technology, social media has been widely used by the public. People express their opinions on social networks such as facebook or twitter. These remarks can reflect a lot of information about users, such as favorite things, ideas or tendencies. We can use these information to group users for facilitating subsequent research analysis or gaining business benefits. In this article, we collect the documents sent by users in the social network and using the topic model to find out which topics commonly used by each user. After finding the topic distribution for each user, we can cluster them by using some clustering analysis methods such as k- means, affinity propagation, etc. We also consider the time effect and explore the changes in the user's topic and clustering in each time slice. Finally, We also uses the PTT data, showing the effect of the user clustering and some discovery under the Chinese documents. |
第三語言摘要 | |
論文目次 |
第一章 緒論 1 1.1 研究動機與目的 1 1.2 論文架構 3 第二章 文獻探討與回顧 4 2.1 文章與用戶分群 4 2.2 主題模型(topic model) 5 第三章 研究方法 8 3.1 方法概述 8 3.2 模型參數、假設與流程 8 3.3 斷詞、語料庫 10 3.4 主題模型 11 3.5 用戶分群 13 第四章 實例模擬研究 14 4.1 資料描述 14 4.2 模型選擇與分析過程 14 4.3 分群結果 18 第五章 結論與建議 35 5.1 結論 35 5.2 研究建議 36 第六章 參考文獻 37 表 1、參數定義表 8 表 2、一致性指標最大值出現各主題數次數表 15 表 3、k-means各月下最大前五群人數(比例)表 21 表 4、2016年4月k-means最大群常用主題 22 表 5、2017年10月k-means最大群常用主題 22 表 6、2017年11月k-means最大群常用主題 23 表 7、2017年12月k-means最大群常用主題 23 表 8、2018年1月k-means最大群常用主題 23 表 9、2018年2月k-means最大群常用主題 24 表 10、2018年3月k-means最大群常用主題 24 表 11、AP各月下最大前五群人數(比例)表 26 表 12、2016年4月AP分群法最大群常用主題 27 表 13、2017年10月AP分群法最大群常用主題 27 表 14、2017年11月AP分群法最大群常用主題 27 表 15、2017年12月AP分群法最大群常用主題 28 表 16、2018年1月AP分群法最大群常用主題 28 表 17、2018年2月AP分群法最大群常用主題 28 表 18、2018年3月AP分群法最大群常用主題 29 表 19、發文數前五名用戶2016年4月至2017年3月所在第幾大群表 31 表 20、發文數前五名用戶2017年4月至2018年3月所在第幾大群表 31 表 21、發文數前五名用戶2016年4月至2017年3月常用主題詞 33 表 22、發文數前五名用戶2017年4月至2018年3月常用主題詞 34 圖 1、主題模型架構圖 10 圖 2、各月文檔數長條圖 14 圖 3、各月用戶數長條圖 15 圖 4、2016年4月至2016年9月每月一致性指標圖 16 圖 5、2016年10月至2017年3月每月一致性指標圖 16 圖 6、2017年4月至2017年9月每月一致性指標圖 17 圖 7、2017年10月至2018年3月每月一致性指標圖 17 圖 8、2016年4月k-means組內變異陡坡圖 19 圖 9、2016年4月k-means側影係數圖 20 圖 10、affinity propagation各月份分群數 25 圖 11、AP分群法關注主題於各月最大群排名圖 30 |
參考文獻 |
[1] Arun, R., Suresh, V., Madhavan, C.E.V., Murty, M.N. (2010), On finding the natural number of topics with Latent Dirichlet Allocation: Some observations, Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 391-402 [2] Blei D.M., Lafferty J.D. (2006), Dynamic topic models, ACM International Conference Proceeding Series, 148, 113-120 [3] Blei D.M., Ng A.Y., Jordan M.I. (2003), Latent Dirichlet allocation, Journal of Machine Learning Research, 3, 993-1022 [4] Cao J., Xia T., Li J., Zhang Y., Tang S. (2009), A density-based method for adaptive LDA model selection, Neurocomputing, 72, 1775-1781 [5] Cha M., Haddadi H., Benevenuto F., Gummadi K.P. (2010), Measuring user influence in twitter: The million follower fallacy, ICWSM 2010 - Proceedings of the 4th International AAAI Conference on Weblogs and Social Media, 10-17 [6] Choo J., Lee C., Reddy C.K., Park H. (2013), UTOPIAN: User-driven topic modeling based on interactive nonnegative matrix factorization, IEEE Transactions on Visualization and Computer Graphics, 19, 1992-2001 [7] Darling, W.M. (2011), A Theoretical and Practical Implementation Tutorial on Topic Modeling and Gibbs Sampling. [8] Deveaud R., SanJuan E., Bellot P. (2014), Accurate and effective Latent Concept Modeling for ad hoc information retrieval, Document Numerique, 17, 61-84 [9] Frey B.J., Dueck D. (2007), Clustering by passing messages between data points, Science, 315, 972-976 [10] Griffiths T.L., Steyvers M. (2004), Finding scientific topics, Proceedings of the National Academy of Sciences of the United States of America, 101, 5228-5235 [11] Grün B., Hornik K. (2011), Topicmodels: An r package for fitting topic models, Journal of Statistical Software, 40, 1-30 [12] Guan R., Shi X., Marchese M., Yang C., Liang Y. (2011), Text clustering with Seeds Affinity Propagation, IEEE Transactions on Knowledge and Data Engineering, 23, 627-637 [13] Heinrich, Gregor. (2005), Parameter Estimation for Text Analysis. [14] Hofmann T. (1999), Probabilistic latent semantic indexing, Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 1999, 50-57 [15] I. Arapakis , M. Lalmas , G. Valkanas , Understanding within-content engagement through pattern analysis of mouse gestures, Proceedings of the Twenty-third ACM International Conference on Conference on Information and Knowledge Management, 2014, 1439–1448 . [16] Ikeda K., Hattori G., Ono C., Asoh H., Higashino T. (2013), Twitter user profiling based on text and community mining for market analysis, Knowledge-Based Systems, 51, 35-47 [17] Iwata T., Watanabe S., Yamada T., Ueda N. (2009), Topic tracking model for analyzing consumer purchase behavior, IJCAI International Joint Conference on Artificial Intelligence, 1427-1432 [18] Li J., Ma X. (2018), Research on hot news discovery model based on user interest and topic discovery, Cluster Computing, 1-9 [19] Ma H., Fan X., Chen J. (2008), An incremental Chinese text classification algorithm based on quick clustering, Proceedings - International Symposium on Information Processing, ISIP 2008 and International Pacific Workshop on Web Mining and Web-Based Application, WMWA 2008, 308-312 [20] Mei Q., Zhai C. (2005), Discovering evolutionary theme patterns from text - An exploration of Temporal Text Mining, Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 198-207 [21] Miller Z., Dickinson B., Deitrick W., Hu W., Wang A.H. (2014), Twitter spammer detection using data stream clustering, Information Sciences, 260, 64-73 [22] Phan X.-H., Nguyen L.-M., Horiguchi S. (2008), Learning to classify short and sparse text & web with hidden topics from large-scale data collections, Proceeding of the 17th International Conference on World Wide Web 2008, WWW'08, 91-99 [23] Qiu Z., Shen H. (2017), User clustering in a dynamic social network topic model for short text streams, Information Sciences, 414, 102-116 [24] Röder M., Both A., Hinneburg A. (2015), Exploring the space of topic coherence measures, WSDM 2015 - Proceedings of the 8th ACM International Conference on Web Search and Data Mining, 399-408 [25] Teh Y.W., Jordan M.I., Beal M.J., Blei D.M. (2006), Hierarchical Dirichlet processes, Journal of the American Statistical Association, 101, 476, 1566-1581 [26] Wang X., McCallum A. (2006), Topics over Time: A non-markov continuous-time model of topical trends, Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2006, 424-433 [27] Wei X., Croft W.B. (2006), LDA-based document models for ad-hoc retrieval, Proceedings of the Twenty-Ninth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2006, 178-185 [28] Wei X., Sun J., Wang X. (2007), Dynamic mixture models for multiple time series, IJCAI International Joint Conference on Artificial Intelligence, 2909-2914 [29] Yin J., Wang J. (2014), A Dirichlet multinomial mixture model-based approach for short text clustering, Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 233-242 [30] Zamir Oren, Etzioni Oren (1998), Web document clustering: A feasibility demonstration, SIGIR Forum (ACM Special Interest Group on Information Retrieval), 46-54 [31] Zhao Y., Liang S., Ren Z., Ma J., Yilmaz E., De Rijke M. (2016), Explainable user clustering in short text streams, SIGIR 2016 - Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval, 155-164 |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信