§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2107201710110100
DOI 10.6846/TKU.2017.00741
論文名稱(中文) 興趣點之多標籤分類方法研究
論文名稱(英文) A Study of Multi-label Classification of POI
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 電機工程學系碩士班
系所名稱(英文) Department of Electrical and Computer Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 2
出版年 106
研究生(中文) 邱捷琦
研究生(英文) Chieh-Chi Chiu
學號 604450220
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2017-07-10
論文頁數 60頁
口試委員 指導教授 - 李維聰(wtlee@mail.tku.edu.tw)
委員 - 衛信文(hsinwen.wei@gmail.com)
委員 - 朱國志(kcchu@mail.lhu.edu.tw)
關鍵字(中) 分類
機器學習
爬蟲
相似度
支持向量機
最近鄰居法
關鍵字(英) Classification
Similarity
Machine learning
Web crawler
SVM
kNN
第三語言關鍵字
學科別分類
中文摘要
在這個資訊爆炸的時代,網際網路的盛行,在網路的世界裡上有成千上萬的資訊,如何在眾多的資訊中找到自己想要的資料,因此有了推薦系統。好的推薦系統勢必要有好的分類, 因此便有了分類系統這門學問。一個好的分類系統可以在短時間內快速地找到適合自己的資料,不好的分類不僅耗時還有可能找到不是自己想要的資料。
傳統的單標籤分類只能單方面的知道這個資訊是不是屬於這一類,在搜尋前如果不知道所要查的資訊是屬於哪一類時,便會提高尋找資料的時間,這樣對使用者來說相當耗時。但是多標籤分類,可以提高資訊的相關性,讓未知的訊息多了幾個可以找到它們的線索,可以讓使用者在搜尋資料時可以更快地找到並符合自己想要的資料。
因此,本論文主要的研究,即針對使用者有興趣的地點進行以食、衣、住、行、育樂為標籤的多標籤分類機制研究。在本論文中,首先利用網路爬蟲取得網頁的資料。當收到地點的資料時,利用搜尋名稱並使用Google Custom Search API取得網頁來蒐集資料。之後藉由斷詞系統(Ckip)來分類蒐集到的網頁內容並計算所有值的權重,透過權重值的計算來得知網頁字詞與類別的相關性。接著,本論文利用搜尋到的網頁內容來製作關鍵詞表,分為食、衣、住、行、育樂五種。再來,我們將地點名稱量化並取權重值、相似度及相似度符合率來作為三個特徵值。最後利用這三個特徵值加上kNN及SVM來取得單標籤分類的結果,我們將單標籤分類後的結果,再進行一次分類來達到本論文所要做的多標籤分類。
	本論文的實驗是將未知的地點訊息做多標籤分類,讓使用者在未知的地方。使用社群網站輸入地點名稱,進而找到該地點的資訊。從實驗的結果我們可以發現,當訊息越多時,分類的效果越好;反之,當訊息越少,則分類的效果較差。k值越大則分類的效果較佳為結論。在未來,我們希望能將分類的範圍擴大,目的是資訊越多,能分類的項目就越多,利用範圍擴大來提升資料的多樣性以及準確性。
英文摘要
With the rise of internet technology and development of mobile application, more and more data are around us. However, it’s not always easy to find the needed information that people want. Therefore, a good recommendation system is required for giving useful or interesting information. To provide useful information for user, a good classification of data is needed for recommendation system. Good classification of data allows system to process users’ requests easily and efficiently, on the other hand, poor classification of data makes recommendation useless and time-consumed. 
Traditional single-label classification can only be unilateral to know whether this information belongs to a certain category. Before searching information, if you do not know the category of the information, it will increase the time to find information, so the search is quite time consuming. In contrast, the multi-label classification can obtain the relevance of the information, so that it can find a few more clues for the unknown data and  allow users to obtain the needed information faster. 
Therefore, the main research of this paper is to study the multi-label classification mechanism, which tries to classify data into following categories: food, clothing, accommodation, transportation and education. In this paper, we first use the web crawler to obtain the information of the webpage. When we receive the information of the place, we use the search name and use the Google Custom Search API to obtain the webpage to collect the data. Then by the word system (Ckip) to classify the collected web content and calculate the weight of all values. Through the weight of the calculation, the relevance of the page terms and categories can be obtained.



Second, we use the web content to construct the keyword table, which includes words related food, clothing, accommodation, transportation and education categories. Then, we use three features with kNN and SVM to get the results of single-label classification. In order to improve the diversity of information, the results of single-label, are sorted after the unknown information is classified into food, clothing, accommodation, transportation and education. After that, the classifiers are applied to the results to obtain the results of  Multi-label classification.
The experiment in this paper is to sort the unknown location information into a multi-label category, allowing the user to use the community site to enter the place name in an unknown place to find the information for that location. From the results of the experiment we can find that the more the data we collected, the better the results of classification; the other hand, when the obtained data is less, the results of classification are poor. Moreover, the simulation results also show that when k value is greater the results of classification are better. In the future, we want to extend the scope of the classification to have more data and so that expand the diversity and accuracy of classification.
第三語言摘要
論文目次
第一章	緒論	1
1.1	前言	1
1.2	動機與目的	1
1.3	論文章節架構	3
第二章	相關研究與背景知識	5
2.1	機器學習	5
2.1.1	支持向量機(Support Vector Machine, SVM)	5
2.1.2	最近鄰居法(k-nearest neighbors, kNN)	7
2.2	相似度計算	7
2.2.1	歐幾里得距離(Euclidean distance)	7
2.2.2	餘弦相似度(Cosine similarity)	8
2.3	CHINESE KNOWLEDGE AND INFORMATION PROCESSING(CKIP)	9
2.4	相關研究	9
第三章	研究方法	11
3.1	權重值計算	11
3.2	關鍵詞表	12
3.2.1	關鍵詞表製作	13
3.2.2	相似度計算	16
3.2.3	相似度符合率	17
3.3	實驗流程	18
第四章	研究成果	22
4.1	實驗環境	22
4.1.1	地點資料蒐集	22
4.1.2	網頁資料蒐集	24
4.1.3	詞彙資料蒐集	25
4.2	關鍵詞表	26
4.2.1	單標籤分類使用的各類型關鍵詞表	26
4.2.2	多標籤分類使用的各類型關鍵詞表	31
4.3	特徵值	34
4.4	數據討論	37
4.4.1	單標籤分類三個特徵值	38
4.4.2	多標籤分類三個特徵值	48
4.4.3	數據分析	54
第五章	結論與未來展望	55
參考文獻	56

圖 1.1打卡圖	2
圖 1.2僅有地點名稱的位置	3
圖 2.1 SVM範例圖	6
圖 2.2 kNN範例圖	7
圖 3.1權重值範例圖	12
圖 3.2關鍵詞表製作流程圖	13
圖 3.3第一階段實驗流程圖	18
圖 3.4第二階段實驗流程圖	20
圖 4.1資料蒐集範圍	23
圖 4.2三個特徵值與公式 3 5的食物類型LibSVM圖	39
圖 4.3 三個特徵值與公式 3-5的衣類型 LibSVM圖	39
圖 4.4三個特徵值與公式 3 5的住類型LibSVM圖	40
圖 4.5三個特徵值與公式 3-5的行類型 LibSVM圖	40
圖 4.6三個特徵值與公式 3 5的育樂類型LibSVM圖	41
圖 4.7三個特徵值與公式 3 6的食物類型LibSVM圖	42
圖 4.8三個特徵值與公式 3-6的衣類型 LibSVM圖	42
圖 4.9三個特徵值與公式 3 6的住類型LibSVM圖	43
圖 4.10三個特徵值與公式 3-6的行類型 LibSVM圖	43
圖 4.11三個特徵值與公式 3 6的育樂類型LibSVM圖	44
圖 4.12三個特徵值與公式 3 7的食物類型LibSVM圖	45
圖 4.13三個特徵值與公式 3 7的衣類型LibSVM圖	45
圖 4.14三個特徵值與公式 3 7的住類型LibSVM圖	46
圖 4.15三個特徵值與公式 3 7的行類型LibSVM圖	46
圖 4.16三個特徵值與公式 3 7的育樂類型LibSVM圖	47
圖 4.17無修改關鍵詞表的食住LibSVM圖	49
圖 4.18無修改關鍵詞表的食育樂LibSVM圖	49
圖 4.19無修改關鍵詞表的衣育樂LibSVM圖	50
圖 4.20無修改關鍵詞表的行育樂LibSVM圖	50
圖 4.21已修改關鍵詞表的食住LibSVM圖	51
圖 4.22已修改關鍵詞表的食育樂LibSVM圖	52
圖 4.23已修改關鍵詞表衣育樂的LibSVM圖	52
圖 4.24已修改關鍵詞表的行育樂LibSVM圖	53

表 3 1住關鍵詞表	14
表 3-2 食住關鍵詞表	15
表 3 3刪除規則範例	19
表 4 1利用Facebook Place API所取得的地點名稱	23
表 4 2部分地點名稱與其相關網頁	24
表 4 3無用處詞性	25
表 4 4食物關鍵詞表	27
表 4-5衣相關詞表	28
表 4 6住相關詞表	29
表 4 7行相關詞表	29
表 4 8育樂關鍵詞表	30
表 4-9 食住關鍵詞表	31
表 4-10 食育樂關鍵詞表	32
表 4-11 育樂衣關鍵詞表	33
表 4-12 育樂行關鍵詞表	34
表 4 13網頁與食物特徵值	35
表 4 14網頁與食住特徵值	36
表 4 15地點與食物特徵值	37
表 4 16地點與食住特徵值	37
表 4 17三個特徵值與公式 3 5的iBk準確率	41
表 4 18三個特徵值與公式 3 6的iBk準確率	44
表 4 19三個特徵值與公式 3 7的iBk準確率	47
表 4 20三個特徵值的各方程式LibSVM準確率	48
表 4 21無修改關鍵詞表的iBk準確率	51
表 4 22無修改關鍵詞表的LibSVM圖	51
表 4 23已修改關鍵詞表的iBk準確率	53
表 4 24已修改關鍵詞表的LibSVM圖	53
參考文獻
[1]	民生六大需求 [Online]. available:    https://note.com.tw/2016/08/28/食、衣、住、行、育、樂/
[2]	Machine Learning[online].avaliable:       https://zh.wikipedia.org/wiki/機器學習
[3]	J. Park, J. Park and J. Choi, "Web-Based Document Classification Using a Trie-Based Index Structure," in Web Intelligence and Intelligent Agent Technology Workshops, 2007 IEEE/WIC/ACM International Conferences on, 2007, pp. 52-55. 
[4]	M. Engin and T. Can, "Text classification in the Turkish marketing domain for context sensitive ad distribution," in Computer and Information Sciences, 2009. ISCIS 2009. 24th International Symposium on, 2009, pp. 105-110. 
[5]	I. C. Kim, D. X. Le and G. R. Thoma, "Automated method for extracting “citation sentences” from online biomedical articles using SVM-based text summarization technique," in 2014 IEEE International Conference on Systems, Man, and Cybernetics (SMC), 2014, pp. 1991-1996.

[6]	k-nearest neighbors algorithm [Online]. available: https://zh.wikipedia.org/wiki/最近鄰居法.
[7]	Rong-Lu Li and Yun-Fa Hu, "Noise reduction to text categorization based on density for kNN," in Machine Learning and Cybernetics, 2003 International Conference on, 2003, pp. 3119-3124 Vol.5. 
[8]	Hua Jiang, Ping Li, Xin Hu and Shuyan Wang, "An improved method of term weighting for text classification," in Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on, 2009, pp. 294-298. 
[9]	L. Li, Y. Che, H. Zhang, T. Li and M. Yang, "kNN text categorization algorithm based on LSA reduce dimensionality," in Information Technology and Artificial Intelligence Conference (ITAIC), 2011 6th IEEE Joint International, 2011, pp. 72-75. 
[10]	Euclidean distance [Online]. available: https://en.wikipedia.org/wiki/Euclidean_distance.
[11]	K. Taghva and R. Veni, "Effects of Similarity Metrics on Document Clustering," in Information Technology: New Generations (ITNG), 2010 Seventh International Conference on, 2010, pp. 222-226. 
[12]	A. Amine, Z. Elberrichi, M. Simonet and M. Malki, "WordNet-Based and N-Grams-Based Document Clustering: A Comparative Study," in Broadband Communications, Information Technology & Biomedical Applications, 2008 Third International Conference on, 2008, pp. 394-401.
[13]	Huaizhong Kou and G. Gardarin, "Similarity model and term association for document categorization," in Database and Expert Systems Applications, 2002. Proceedings. 13th International Workshop on, 2002, pp. 256-260. 
[14]	V.V. Raghavan and S.K.M. Wong, "A critical analysis of vector space model for information retrieval," Journal of the American Society for Information Science, vol. 37, no. 5, pp. 279-287 1986. 
[15]	G. Salton and C. Buckley, "Term-weighting approaches in automatic text retrieval," Information Processing & Management, vol. 24, no. 5, pp. 513-523, 01/01 1988.
[16]	J. Ni, F. Kong, P. Li and Q. Zhu, "Research on Cross-Document Coreference of Chinese Person Name," in Asian Language Processing (IALP), 2011 International Conference on, 2011, pp. 81-84. 
[17]	中文詞知識庫小組 [Online]. available: http://ckip.iis.sinica.edu.tw/CKIP/index.htm. 
[18]	Xue X., Zhou Z., "Distributional Features for Text Categorization, " 17th European conference on machine learning, Berlin, Germany, September 18-22, 2006
[19]	Zhong-Xing Xie, "A Study of Content-aware Classification of POI",2019-08-08
[20]	多元分類[Online]. available:           https://zh.wikipedia.org/wiki/多元分類
[21]	多標籤分類[Online]. available: http://blog.csdn.net/bemachine/article/details/10471383
[22]	Shibiao Wan, "Adaptive thresholding for multi-label SVM classification with application to protein subcellular localization prediction", Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, 2013, pp. 3547-3551.
[23]	Jianqing Zhu, "Multi-label CNN based pedestrian attribute learning for soft biometrics",Biometrics (ICB), 2015 International Conference on, 2015, pp. 535-540.
[24]	LI Li-shuang,HUANG De-gen,CHEN Chun-rong,YANG Yuan-sheng, "Identifying chinese place names based on support vector machines and rules," Industrial Mechatronics and Automation (ICIMA), 2010 2nd International Conference on, vol. 20, no. 5, pp. 53, 2006-10-16 2006.
[25]	TF-IDF [Online]. available:        https://zh.wikipedia.org/wiki/Tf-idf.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信