§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2407201909254900
DOI 10.6846/TKU.2019.00789
論文名稱(中文) 藉由文章及行為推論社群媒體匿名使用者特徵
論文名稱(英文) Inferring profiles of anonymous users on social media based on user generated content and behavior
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 管理科學學系企業經營碩士班
系所名稱(英文) Master's Program In Business And Management, Department Of Management Sciences
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 107
學期 2
出版年 108
研究生(中文) 顏嘉怡
研究生(英文) Chia-Yi Yen
學號 606620275
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2019-06-24
論文頁數 41頁
口試委員 指導教授 - 吳家齊
委員 - 胡筱薇
委員 - 陳怡妃
關鍵字(中) 社群媒體探勘
機器學習
使用者人口統計分類
關鍵字(英) Social Media Mining
Machine Learning
User Demographics Classification
第三語言關鍵字
學科別分類
中文摘要
現今科技日新月異,網際網路的發展已達到與人密不可分的程度。人們透過行動裝置、桌上型電腦及平板電腦來查找購物、理財、休閒娛樂等資訊。然而,資訊擴散速度太快,也導致大眾對於資訊安全及隱私有所疑慮,並因此刻意隱藏個人資料,以避免隱私遭到侵害,這也造成了企業分析社群資料時的困擾。
  本研究採用使用者在社群媒體留下的行為紀錄,推測使用者的人口統計資料,以讓企業在進行決策時有更全面的特徵可供使用。本研究以電影評論網站「Rotten Tomatoes」爛番茄網站為例,使用分類器萃取使用者性別與電影評分、評論等行為之間的關聯,並比較多個分類器之間的差異。
  研究結果顯示,整體分類結果以隨機森林最佳,準確率為64%。其次為C4.5決策樹,準確率為62%。從C4.5決策樹的模型中可知,評論者評論浪漫愛情片、科幻片、藝文片及外國電影的比例,以及評論者給藝文片&外國電影的平均分數,為四個較重要的屬性。
  本研究的貢獻在於,透過評分、評論等,影評者對電影的評價行為,設計一系列可衡量之屬性,並且找出這些屬性與影評者性別之間的關聯。研究結果顯示,評論較多浪漫愛情片的為女性評論者居多,評論科幻片為男性評論者居多。
英文摘要
Nowadays, the technology development has made human become inseparable from the Internet. Due to the rapid spread of information, privacy issues are also valued by most people. Many users hide their personal information to avoid the leakage of their privacy. Therefore, many enterprises encounter difficulties in collecting data for analysis.
  To include more features for data analyzing and decision making, this study infers user demographics with behavioral records in a movie review website "Rotten Tomatoes". The correlation between user behaviors, such as rating and reviewing, and gender was extracted by classifiers, and the performances of different classifiers were evaluated and compared.
  According to the results, the best classifier was random forest, which had a 64% accuracy, and followed by decision tree, which had a 62% accuracy. Four important attributes, ratio of romantic movie reviews, ratio of science fiction and fantasy movie reviews, ratio of art and international movie reviews, and the average score of art and international movies, were identified from the decision tree model. 
  The contribution of this study is designing a series of measurable attributes based on behavior records in social media and find out the correlation between these attributes and the gender of users. Results of this study show that most female users reviewed more romantic movies, while most male users reviewed more science fiction movies.
第三語言摘要
論文目次
目錄
中文摘要	I
英文摘要	III
目錄	V
圖目錄	VII
表目錄	VIII
第一章 緒論	1
1.1	研究背景與動機	1
1.2	研究目的	3
1.3	研究架構	6
第二章 文獻探討	7
2.1	分析方法	7
2.1.1	決策樹分類器 Decision Tree Classifier	8
2.1.2	貝氏分類器 Bayesian Classifier	10
2.1.3	支援向量機 Support Vector Machine, SVM	11
2.2	先前研究	12
2.3	小結	14
第三章 研究方法	15
3.1	原始資料介紹	15
3.2	使用者屬性轉換	16
第四章 實證結果	26
4.1	資料描述	26
4.2	資料基本敘述統計	27
4.3	分類結果評估	31
4.4	分類器測試結果	33
第五章 結論與建議	36
5.1	結論	36
5.2	後續研究	37
參考文獻	38
中文文獻	38
英文文獻	39

圖目錄
圖 1-1 近10年使用行動上網人口統計趨勢圖	1
圖 1-2 爛番茄網站使用者頁面	4
圖 2-1 決策樹	8
圖 4-1 評論者給予各類型電影的平均分數	27
圖 4-2 全體影評者評論各類電影佔總評論篇數的比例	29
圖 4-3男性、女性影評者評論各類電影佔總評論篇數的比例	29
圖 4-4  C4.5決策樹分類結果	35

表目錄
表 3-1 電影類型	17
表 3-2 等第制數值轉換	19
表 3-3 二元結果的填值方式	20
表 3-4 屬性列表	22
表 4-1評論者給予各類型電影平均分數之描述性統計	28
表 4-2 影評者評論各類型電影的比例之描述性統計	30
表 4-3 文字屬性之描述性統計	31
表 4-4分類結果列聯表	32
表 4-5分類器分類結果比較	34
參考文獻
中文文獻
財團法人台灣網路資訊中心(2018)。台灣網路報告。檢索自:https://report.twnic.tw/2018/
陳世杰(2019)。決策樹學習(Decision Tree Learning)。檢索自http://debussy.im.nuu.edu.tw/sjchen/ML_final.html
黃哲斌(2019年2月)。爛番茄茁壯史:影評如何被顛覆。天下雜誌,667。檢索自https://www.cw.com.tw/article/article.action?id=5094105
簡禎富、許嘉裕(2016)。大數據分析與數據挖掘。北京:清華大學。

英文文獻
Bi, B., Shokouhi, M., Kosinski, M., & Graepel, T. (2013, May). Inferring the demographics of search users: Social data meets search queries. In Proceedings of the 22nd international conference on World Wide Web (pp. 131-140). ACM.
Breiman, L., Freidman, J., Olshen, R., and Stone, C. (1984). Classification and regression trees. California: Wadsworth International.
Han, J., Pei, J., & Kamber, M. (2006). Data mining: concepts and techniques. Elsevier.
Kosinski, M., Stillwell, D., & Graepel, T. (2013). Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences, 110(15), 5802-5805.
Otterbacher, J. (2010, October). Inferring gender of movie reviewers: exploiting writing style, content and metadata. In Proceedings of the 19th ACM international conference on Information and knowledge management (pp. 369-378). ACM.
Pennacchiotti, M., & Popescu, A. M. (2011, July). A machine learning approach to twitter user classification. In Fifth International AAAI Conference on Weblogs and Social Media.
Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106.
Quinlan, J. R. (1993). C4.5: programs for machine learning. Morgan Kaufmann.
Rao, D., Yarowsky, D., Shreevats, A., & Gupta, M. (2010, October). Classifying latent user attributes in twitter. In Proceedings of the 2nd international workshop on Search and mining user-generated contents (pp. 37-44). ACM.
Goldberg, R. (2018). Most Americans Continue to Have Privacy and Security Concerns, NTIA Survey Finds. National Telecommunications and Information Administration. Retrieved from 
https://www.ntia.doc.gov/blog/2018/most-americans-continue-have-privacy-and-security-concerns-ntia-survey-finds
Schler, J., Koppel, M., Argamon, S., & Pennebaker, J. W. (2006, March). Effects of age and gender on blogging. In AAAI spring symposium: Computational approaches to analyzing weblogs(Vol. 6, pp. 199-205).
Schouten, K., & Frasincar, F. (2015). Survey on aspect-level sentiment analysis. IEEE Transactions on Knowledge and Data Engineering, 28(3), 813-830.
Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Dziurzynski, L., Ramones, S. M., Agrawal, M., ... & Ungar, L. H. (2013). Personality, gender, and age in the language of social media: The open-vocabulary approach. PloS one, 8(9), e73791.
Vapnik, V. (1995). The National of Statistical Learning Theory (1st ed). New York: Springer-Verlag.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信