系統識別號 | U0002-2507201800270300 |
---|---|
DOI | 10.6846/TKU.2018.00775 |
論文名稱(中文) | 結合標籤資訊偵測Instagram垃圾貼文之研究 |
論文名稱(英文) | Instagram spam detection aided by the hashtag information |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 資訊管理學系碩士班 |
系所名稱(英文) | Department of Information Management |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 106 |
學期 | 2 |
出版年 | 107 |
研究生(中文) | 蘇敬閎 |
研究生(英文) | Ching-Hung Su 蘇敬閎 |
學號 | 605630135 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2018-06-02 |
論文頁數 | 56頁 |
口試委員 |
指導教授
-
魏世杰(sekewei@mail.tku.edu.tw)
委員 - 李鴻璋 委員 - 陳灯能 委員 - 魏世杰 |
關鍵字(中) |
社群媒體垃圾貼文 主題標籤 機器學習 Scikit-learn套件 |
關鍵字(英) |
Social Media Spam Hashtag Machine Learning Scikit-learn |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
Instagram使用者都習慣在貼文中標示主題標籤(Hashtag),除了讓追隨自己的粉絲瞭解貼文的主題分類之外,也能在其他人搜尋主題標籤時增加自己貼文的曝光度,有利於粉絲人數的成長。由於散佈垃圾貼文的人常濫用熱門的主題標籤,搜索貼文的結果時常會夾雜許多使用者不想看到的垃圾貼文,如擾人的廣告訊息、疑似詐欺的買賣、惡意連結等,所以本文將針對Instagram貼文結合主題標籤進行垃圾貼文的分類研究。實驗結果顯示,本文結合主題標籤的作法,在各種分類方法下,判別Instagram垃圾貼文皆可得到較佳的表現。 |
英文摘要 |
In recent years, Instagram has become a popular social network media.It is mostly used among younger generations for photo sharing in their daily life. Instagram users like to post with hashtags so that other people can find their posts more easily and become their fan followers.As a result, the hashtags tend to be exploited by spammers who use a lot of popular hashtags to gain visibility for the purpose of advertisement, fraudulent trading, or malicious phishing link. Therefore, this work aims to detect Instagram spam posts aided by the hashtag information. Various classification methods in machine learning are compared and the experiments show that our approach has a very good spam detection rate. |
第三語言摘要 | |
論文目次 |
目錄 第一章 緒論 1 1.1 研究背景與動機 1 1.2 研究目的 2 1.3 研究限制 3 1.4 論文架構 3 第二章 文獻探討 4 2.1 社群媒體的垃圾貼文 4 2.2 機器學習(Machine Learning) 5 2.2.1 支撐向量機SVM(Support-Vector machine) 6 2.2.2 簡單貝氏分類(Naive Bayes) 7 2.2.3 極限梯度提升法(XGBoost,eXtreme Gradient Boosting) 8 2.2.4 K個最近鄰居法(KNN,K-Nearest Neighbors) 9 2.2.5 線性判別分析(LDA,Linear Discriminant Analysis) 10 2.2.6 決策樹(Decision Tree) 11 2.2.7 標記傳播(Label Propagation) 12 2.3 文件向量化方法 13 2.3.1 Word2vec詞向量法 13 2.3.2 fastText詞向量法 13 2.3.3 詞袋法(BoW,Bag-of-Words) 14 2.3.4 詞頻-文件頻率倒數法(TF-IDF,term frequency–inverse document frequency) 14 2.4 Instagram 15 2.5 主題標籤 16 第三章 研究方法與架構 17 3.1 研究方法 17 3.2 資料蒐集 18 3.3 資料前處理 19 3.4 擴充資料集 22 3.5 基礎特徵選取 24 3.6 模型結果評估 26 第四章 實驗結果 28 4.1 實驗工具 28 4.2 參數調整 29 4.3 實驗結果 31 4.3.1 基礎特徵下分類表現 32 4.3.2 BoW表現法 32 4.3.3 TF-IDF表現法 34 4.3.4 fastText表現法 35 4.3.5 Word2Vec表現法 36 4.3.6 實驗小結 37 4.4 模型訓練及預測時間 39 4.4.1 基礎特徵下時間表現 40 4.4.2 BoW時間表現 41 4.4.3 TF-IDF時間表現 43 4.4.4 fastText時間表現 45 4.4.5 Word2Vec時間表現 47 4.4.6 實驗總結 49 4.5 相同維度向量化之比較 50 第五章 結論 52 表目錄 表2-1: 社群媒體垃圾貼文相關研究文獻整理 4 表3-1:萃取表情貼圖Unicode表 21 表3-2:混淆矩陣表 26 表4-1:實驗環境 28 表4-2:SVM套用最佳參數後的預測結果混淆矩陣表 29 表4-3:分類器最佳參數調整表 30 表4-4:5種貼文特徵來源表 31 表4-5:7種分類器使用選擇表 31 表4-6:貼文只用基礎特徵基礎下的分類表現 32 表4-7:BoW表現法的分類表現 33 表4-8:TF-IDF表現法的分類表現 34 表4-9:fastText表現法的分類表現 35 表4-10:Word2Vec表現法的分類表現 36 表4-11:Hashtag特徵來源下T檢定結果 38 表4-12:Basic + Words + Hashtag特徵來源下T檢定結果 38 表4-13:Basic Train and predict time(sec) 40 表4-14:Bow Train and predict time(sec) 41 表4-15:TF-IDF Train and predict time(sec) 43 表4-16:fastText Train and predict time(sec) 45 表4-17:Word2Vec Train and predict time(sec) 47 表4-18:PCA_Bow 表現法的分類表現 50 表4-19:PCA_TF-IDF 表現法的分類表現 51 圖目錄 圖1-1:平台使用量統計 2 圖2-1:SVM 概念圖 6 圖2-2:KNN概念圖 9 圖2-3:CART某種分割結果Gini係數下降程度的計算例子 12 圖2-4:2013年1月至2017年9月的月活躍Instagram用戶數量(百萬) 15 圖2-5:標籤研究層次圖 16 圖3-1:研究架構圖 17 圖3-2:撈取貼文流程圖 18 圖3-3:原貼文未處理範例 19 圖3-4:內文的斷詞結果範例 19 圖3-5:貼文的標籤提取結果範例 19 圖3-6:前處理完貼文的特徵結果圖 20 圖3-7:錢貼圖的UniCode範圍圖 21 圖3-8:合併已標記及未標記資料圖 22 圖3-9:擴充標記資料流程圖 23 圖3-10:決策樹判別基礎特徵重要性結果圖 24 圖3-11:RFECV交叉驗證基礎特徵結果圖 25 圖3-12:資料切分方式概念圖 26 圖4-1:SVM參數調整前後F1-分數圖(Keywords採用TFIDF內文表現法) 29 圖4-2:內文採用BoW表現法的向量化範例 32 圖4-3:標籤採用BoW表現法的向量化範例 32 圖4-4:內文採用TF-IDF表現法的向量化範例 34 圖4-5:標籤採用TF-IDF結果圖表現法的向量化範例 34 圖4-6:內文採用fastText平均詞向量的範例 35 圖4-7:標籤採用fastText平均詞向量 35 圖4-8:內文採用Word2Vec平均詞向量的範例 36 圖4-9:標籤採用Word2Vec平均詞向量的範例 36 圖4-10:最佳F1分數彙整圖(自表4-7到表4-10各表取兩種表現最好的分類器呈現) 37 圖4-11:基礎特徵F1分數下預測時間及訓練時間 40 圖4-12:BoW向量化方法的Hashtag F1分數下預測時間及訓練時間 42 圖4-13:BoW向量化方法的Basic + Hashtag +Words F1分數下預測時間及訓練時間 42 圖4-14:TF-IDF向量化方法的Hashtag F1分數下預測時間及訓練時間 44 圖4-15:TF-IDF向量化方法的Basic + Hashtag +Words F1分數下預測時間及訓練時間 44 圖4-16:fastText向量化方法的Hashtag F1分數下預測時間及訓練時間 46 圖4-17:fastText向量化方法的Basic + Hashtag +Words F1分數下預測時間及訓練時間 46 圖4-18: Word2Vec向量化方法的Hashtag F1分數下預測時間及訓練時間 48 圖4-19: Word2Vec向量化方法的Basic + Hashtag +Words F1分數下預測時間及訓練時間 48 圖4-20: 四種向量化方法的Hashtag其F1分數與時間最佳選合併圖 49 圖4-21: 四種向量化方法的Basic + Hashtag +Words其F1分數與時間最佳選合併圖 49 圖4-22:相同300維度下F1分數比較 51 |
參考文獻 |
[1] 171 Amazing Social Media Statistics You Should Know in 2018 https://www.socialpilot.co/blog/social-media-statistics [2] HASHTAG之應用與NIKE主題行銷活動 - 台灣精品品牌協會。http://www.bpaper.org.tw/practice/39-04/,2016。 [3] P. Kolari, T. Finin, and A. Joshi. Spam in blogs and social media. In Tutorial at International AAAI Conference on Web and Social Media (ICWSM), 2007. [4] M. McCord and M. Chuah. Spam detection on twitter using traditional classifiers. In Proceedings of the 8th International Conference on Autonomic and Trusted Computing (ATC), 175–186, Berlin, Heidelberg, 2011. [5] H. Xu, W. Sun, and A. Javaid. Efficient spam detection across online social networks. IEEE International Conference on International Conference on Big Data Analysis (ICBDA), 1–6, 2016. [6] 陳欣,鄭嘯,焦媛媛。一種基於支持向量機的垃圾微博識別方法。 安徽工業大學學報:自然科學版,30(10),440-445,2013。 [7] W. Zhang and H. M. Sun. Instagram spam detection. IEEE 22nd Pacific Rim International Symposium on Dependable Computing (PRDC), 227-228, 2017. [8] A. A. Septiandri and O. Wibisono. Detecting spam comments on Indonesia’s Instagram posts. Journal of Physics: Conference Series, 801 (1), 012069, 2017. [9] C. Cortes and V. Vapnik. Support vector networks. Machine Learning, (20), 273–297, 1995. [10] H. Drucker, D. Wu, and V. N. Vapnik. Support vector machines for spam categorization. IEEE Transactions on Neural Networks, 20 (5), 1048 - 1054, 1999. [11] Hsu, C. W., Chang C. C., and Lin, C. J. A Practical Guide to Support Vector Classification. 2003. [12] Matthew Kirk,初探機器學習:使用Python,陳仁和譯,碁峰資訊,2017。 [13] H. Yin, F. Cheng, and D. Zhang. Using LDA and ant colony algorithm for spam mail filtering. International Symposium on Information Science and Engineering, 368–371, 2009. [14] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation of word representations in vector space. https://arxiv.org/abs/1301.3781, 2013. [15] T. Wu, S. Liu, J. Zhang, and Y. Xiang. Twitter spam detection based on deep learning. ACM Proceedings of the Australasian Computer Science Week Multiconference, 3, 2017. [16] A. Joulin, E. Grave, P. Bojanowski, and T. Mikolov. Bag of tricks for efficient text classification. https://arxiv.org/abs/1607.01759, 2016. [17] fastText Pre-trained word vectors. https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md, 2016. [18] 邵健,章成志,李蕾。Hashtag研究綜述。現代圖書情報技術, 31(10),40-49,2015。 [19] G. A. R. Barbosa, I. S. Silva, M. Zaki, W. Meira Jr, R. Prates, and A. Veloso. Characterizing the effectiveness of Twitter hashtags to detect and track online population sentiment. ACM Proceedings of the Extended Abstracts on Human Factors in Computing Systems. 2621-2626, 2012. [20] Z. Ma, A. Sun, and G. Cong. On predicting the popularity of newly emerging hashtags in twitter. J. Am. Soc. for Information Science and Technology, 64 (7), 1399–1410, 2013. [21] GitHub - fxsjy/jieba: 結巴中文分詞,https://github.com/fxsjy/jieba, 2017. [22] Selenium Documentation. https://www.seleniumhq.org/docs/, 2018. [23] Beautiful Soup 4.4.0 documentation. https://www.crummy.com/software/BeautifulSoup/bs4/doc/, 2015. [24] scikit-learn: machine learning in Python. http://scikit-learn.org/stable/, 2017. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信