§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2507201800270300
DOI 10.6846/TKU.2018.00775
論文名稱(中文) 結合標籤資訊偵測Instagram垃圾貼文之研究
論文名稱(英文) Instagram spam detection aided by the hashtag information
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 106
學期 2
出版年 107
研究生(中文) 蘇敬閎
研究生(英文) Ching-Hung Su 蘇敬閎
學號 605630135
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2018-06-02
論文頁數 56頁
口試委員 指導教授 - 魏世杰(sekewei@mail.tku.edu.tw)
委員 - 李鴻璋
委員 - 陳灯能
委員 - 魏世杰
關鍵字(中) 社群媒體垃圾貼文
主題標籤
機器學習
Scikit-learn套件
關鍵字(英) Social Media Spam
Hashtag
Machine Learning
Scikit-learn
第三語言關鍵字
學科別分類
中文摘要
Instagram使用者都習慣在貼文中標示主題標籤(Hashtag),除了讓追隨自己的粉絲瞭解貼文的主題分類之外,也能在其他人搜尋主題標籤時增加自己貼文的曝光度,有利於粉絲人數的成長。由於散佈垃圾貼文的人常濫用熱門的主題標籤,搜索貼文的結果時常會夾雜許多使用者不想看到的垃圾貼文,如擾人的廣告訊息、疑似詐欺的買賣、惡意連結等,所以本文將針對Instagram貼文結合主題標籤進行垃圾貼文的分類研究。實驗結果顯示,本文結合主題標籤的作法,在各種分類方法下,判別Instagram垃圾貼文皆可得到較佳的表現。
英文摘要
In recent years, Instagram has become a popular social network media.It is mostly used among younger generations for photo sharing in their daily life. Instagram users like to post with hashtags so that other people can find their posts more easily and become their fan followers.As a result, the hashtags tend to be exploited by spammers who use a lot of popular hashtags to gain visibility for the purpose of advertisement, fraudulent trading, or malicious phishing link. Therefore, this work aims to detect Instagram spam posts aided by the hashtag information. Various classification methods in machine learning are compared and the experiments show that our approach has a very good spam detection rate.
第三語言摘要
論文目次
目錄
第一章	緒論	1
1.1	研究背景與動機	1
1.2	研究目的	2
1.3	研究限制	3
1.4	論文架構	3
第二章	文獻探討	4
2.1	社群媒體的垃圾貼文	4
2.2	機器學習(Machine Learning)	5
2.2.1	支撐向量機SVM(Support-Vector machine)	6
2.2.2	簡單貝氏分類(Naive Bayes)	7
2.2.3	極限梯度提升法(XGBoost,eXtreme Gradient Boosting)	8
2.2.4	K個最近鄰居法(KNN,K-Nearest Neighbors)	9
2.2.5	線性判別分析(LDA,Linear Discriminant Analysis)	10
2.2.6	決策樹(Decision Tree)	11
2.2.7	標記傳播(Label Propagation)	12
2.3	文件向量化方法	13
2.3.1	Word2vec詞向量法	13
2.3.2	fastText詞向量法	13
2.3.3	詞袋法(BoW,Bag-of-Words)	14
2.3.4	詞頻-文件頻率倒數法(TF-IDF,term frequency–inverse document frequency)	14
2.4	Instagram	15
2.5	主題標籤	16
第三章	研究方法與架構	17
3.1	研究方法	17
3.2	資料蒐集	18
3.3	資料前處理	19
3.4	擴充資料集	22
3.5	基礎特徵選取	24
3.6	模型結果評估	26
第四章	實驗結果	28
4.1	實驗工具	28
4.2	參數調整	29
4.3	實驗結果	31
4.3.1	基礎特徵下分類表現	32
4.3.2	BoW表現法	32
4.3.3	TF-IDF表現法	34
4.3.4	fastText表現法	35
4.3.5	Word2Vec表現法	36
4.3.6	實驗小結	37
4.4	模型訓練及預測時間	39
4.4.1	基礎特徵下時間表現	40
4.4.2	BoW時間表現	41
4.4.3	TF-IDF時間表現	43
4.4.4	fastText時間表現	45
4.4.5	Word2Vec時間表現	47
4.4.6	實驗總結	49
4.5	相同維度向量化之比較	50
第五章	結論	52

 
表目錄
表2-1: 社群媒體垃圾貼文相關研究文獻整理	4
表3-1:萃取表情貼圖Unicode表	21
表3-2:混淆矩陣表	26
表4-1:實驗環境	28
表4-2:SVM套用最佳參數後的預測結果混淆矩陣表	29
表4-3:分類器最佳參數調整表	30
表4-4:5種貼文特徵來源表	31
表4-5:7種分類器使用選擇表	31
表4-6:貼文只用基礎特徵基礎下的分類表現	32
表4-7:BoW表現法的分類表現	33
表4-8:TF-IDF表現法的分類表現	34
表4-9:fastText表現法的分類表現	35
表4-10:Word2Vec表現法的分類表現	36
表4-11:Hashtag特徵來源下T檢定結果	38
表4-12:Basic + Words + Hashtag特徵來源下T檢定結果	38
表4-13:Basic Train and predict time(sec)	40
表4-14:Bow Train and predict time(sec)	41
表4-15:TF-IDF Train and predict time(sec)	43
表4-16:fastText Train and predict time(sec)	45
表4-17:Word2Vec Train and predict time(sec)	47
表4-18:PCA_Bow 表現法的分類表現	50
表4-19:PCA_TF-IDF 表現法的分類表現	51

 
圖目錄
圖1-1:平台使用量統計	2
圖2-1:SVM 概念圖	6
圖2-2:KNN概念圖	9
圖2-3:CART某種分割結果Gini係數下降程度的計算例子	12
圖2-4:2013年1月至2017年9月的月活躍Instagram用戶數量(百萬)	15
圖2-5:標籤研究層次圖	16
圖3-1:研究架構圖	17
圖3-2:撈取貼文流程圖	18
圖3-3:原貼文未處理範例	19
圖3-4:內文的斷詞結果範例	19
圖3-5:貼文的標籤提取結果範例	19
圖3-6:前處理完貼文的特徵結果圖	20
圖3-7:錢貼圖的UniCode範圍圖	21
圖3-8:合併已標記及未標記資料圖	22
圖3-9:擴充標記資料流程圖	23
圖3-10:決策樹判別基礎特徵重要性結果圖	24
圖3-11:RFECV交叉驗證基礎特徵結果圖	25
圖3-12:資料切分方式概念圖	26
圖4-1:SVM參數調整前後F1-分數圖(Keywords採用TFIDF內文表現法)	29
圖4-2:內文採用BoW表現法的向量化範例	32
圖4-3:標籤採用BoW表現法的向量化範例	32
圖4-4:內文採用TF-IDF表現法的向量化範例	34
圖4-5:標籤採用TF-IDF結果圖表現法的向量化範例	34
圖4-6:內文採用fastText平均詞向量的範例	35
圖4-7:標籤採用fastText平均詞向量	35
圖4-8:內文採用Word2Vec平均詞向量的範例	36
圖4-9:標籤採用Word2Vec平均詞向量的範例	36
圖4-10:最佳F1分數彙整圖(自表4-7到表4-10各表取兩種表現最好的分類器呈現)	37
圖4-11:基礎特徵F1分數下預測時間及訓練時間	40
圖4-12:BoW向量化方法的Hashtag F1分數下預測時間及訓練時間	42
圖4-13:BoW向量化方法的Basic + Hashtag +Words F1分數下預測時間及訓練時間	42
圖4-14:TF-IDF向量化方法的Hashtag F1分數下預測時間及訓練時間	44
圖4-15:TF-IDF向量化方法的Basic + Hashtag +Words F1分數下預測時間及訓練時間	44
圖4-16:fastText向量化方法的Hashtag F1分數下預測時間及訓練時間	46
圖4-17:fastText向量化方法的Basic + Hashtag +Words F1分數下預測時間及訓練時間	46
圖4-18: Word2Vec向量化方法的Hashtag F1分數下預測時間及訓練時間	48
圖4-19: Word2Vec向量化方法的Basic + Hashtag +Words F1分數下預測時間及訓練時間	48
圖4-20: 四種向量化方法的Hashtag其F1分數與時間最佳選合併圖	49
圖4-21: 四種向量化方法的Basic + Hashtag +Words其F1分數與時間最佳選合併圖	49
圖4-22:相同300維度下F1分數比較	51
參考文獻
[1]	171 Amazing Social Media Statistics You Should Know in 2018
https://www.socialpilot.co/blog/social-media-statistics
[2]	HASHTAG之應用與NIKE主題行銷活動 - 台灣精品品牌協會。http://www.bpaper.org.tw/practice/39-04/,2016。
[3]	P. Kolari, T. Finin, and A. Joshi. Spam in blogs and social media. In Tutorial at International AAAI Conference on Web and Social Media (ICWSM), 2007.
[4]	M. McCord and M. Chuah. Spam detection on twitter using traditional classifiers. In Proceedings of the 8th International Conference on Autonomic and Trusted Computing (ATC), 175–186, Berlin, Heidelberg, 2011.
[5]	H. Xu, W. Sun, and A. Javaid. Efficient spam detection across online social networks. IEEE International Conference on International Conference on Big Data Analysis (ICBDA), 1–6, 2016.
[6]	陳欣,鄭嘯,焦媛媛。一種基於支持向量機的垃圾微博識別方法。 安徽工業大學學報:自然科學版,30(10),440-445,2013。
[7]	W. Zhang and H. M. Sun. Instagram spam detection. IEEE 22nd Pacific Rim International Symposium on Dependable Computing (PRDC), 227-228, 2017.
[8]	A. A. Septiandri and O. Wibisono. Detecting spam comments on Indonesia’s Instagram posts. Journal of Physics: Conference Series, 801 (1), 012069,  2017.
[9]	C. Cortes and V. Vapnik. Support vector networks. Machine Learning, (20), 273–297, 1995.
[10]	H. Drucker, D. Wu, and V. N. Vapnik. Support vector machines for spam categorization. IEEE Transactions on Neural Networks, 20 (5), 1048 - 1054, 1999.
[11]	Hsu, C. W., Chang C. C., and Lin, C. J. A Practical Guide to Support Vector Classification. 2003.
[12]	Matthew Kirk,初探機器學習:使用Python,陳仁和譯,碁峰資訊,2017。
[13]	H. Yin, F. Cheng, and D. Zhang. Using LDA and ant colony algorithm for spam mail filtering. International Symposium on Information Science and Engineering, 368–371, 2009.
[14]	T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation of word representations in vector space. https://arxiv.org/abs/1301.3781, 2013.
[15]	T. Wu, S. Liu, J. Zhang, and Y. Xiang. Twitter spam detection based on deep learning. ACM Proceedings of the Australasian Computer Science Week Multiconference, 3, 2017.
[16]	A. Joulin, E. Grave, P. Bojanowski, and T. Mikolov. Bag of tricks for efficient text classification. https://arxiv.org/abs/1607.01759, 2016.
[17]	fastText Pre-trained word vectors.
https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md, 2016.
[18]	邵健,章成志,李蕾。Hashtag研究綜述。現代圖書情報技術, 31(10),40-49,2015。
[19]	G. A. R. Barbosa, I. S. Silva, M. Zaki, W. Meira Jr, R. Prates, and A. Veloso. Characterizing the effectiveness of Twitter hashtags to detect and track online population sentiment. ACM Proceedings of the Extended Abstracts on Human Factors in Computing Systems. 2621-2626, 2012. 
[20]	Z. Ma, A. Sun, and G. Cong. On predicting the popularity of newly emerging hashtags in twitter. J. Am. Soc. for Information Science and Technology, 64 (7), 1399–1410, 2013.
[21]	GitHub - fxsjy/jieba: 結巴中文分詞,https://github.com/fxsjy/jieba, 2017.
[22]	Selenium Documentation. https://www.seleniumhq.org/docs/, 2018.
[23]	Beautiful Soup 4.4.0 documentation. https://www.crummy.com/software/BeautifulSoup/bs4/doc/, 2015.
[24]	scikit-learn: machine learning in Python. 
http://scikit-learn.org/stable/, 2017.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信