§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0308201613461000
DOI 10.6846/TKU.2016.00101
論文名稱(中文) 基於內容感知的興趣點分類方法之研究
論文名稱(英文) A Study of Content-aware Classification of POI
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 電機工程學系碩士班
系所名稱(英文) Department of Electrical and Computer Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 104
學期 2
出版年 105
研究生(中文) 謝仲興
研究生(英文) Zhong-Xing Xie
學號 603450197
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2016-07-11
論文頁數 59頁
口試委員 指導教授 - 衛信文
委員 - 朱國志
委員 - 吳庭育
關鍵字(中) 分類
機器學習
爬蟲
相似度
支持向量機
最近鄰居法
關鍵字(英) classification
Machine Learning
web crawler
Similarity
SVM
kNN
第三語言關鍵字
學科別分類
中文摘要
隨著資訊科技不斷的進步,網際網路的盛行,網路平台上有用來越多的訊息分享,在臉書和google等社群網站中,他們為使用者抓取經緯度和地點資料。使用者可以分享他們的地點和狀態給他們的朋友,而若使用者無法找到目前地點,他們也允許使用者自定義地點,但是使用者可能只會輸入地點名稱,如何將其訊息做正確的分類便成為一門嚴峻的學問。
	我們設計網路爬蟲來取得網頁資料,當收到一個地點資料時,我們利用搜尋名稱並使用Google Search API來取得網頁以蒐集資料,我們使用CKIP來分類所有網頁內容的詞並計算所有值的權重,權重值是由(Term Frequency, TF)和(Inverse Document Frequency, IDF)所計算。
	我們製作與類別相關的關鍵字表,並且使用IPeen網站以及淡水周邊已知分類類型的地點名稱來製作它,並且保證一定數量的詞跟分類類型相關以外,亦保留部分隱藏或者潛在附加屬性的詞。
	我們將地點名稱量化,並且取權重值、相似度以及相似度符合率作為三個特徵值,並且利用這三個特徵值結合kNN以及SVM來達到分類的效果。
	在最後我們將地點分為食、住與育樂等三類,並得到使用三個特徵值的結果為最好,且得到在k值較小的情況,kNN的分類效果會較佳的結論。在未來,我們希望能提升至食、衣、住、行、育與樂六類,並且期望能將地點以原本的單標籤延伸為多標籤,以此讓地點資料更為多樣性。
英文摘要
Abstract:
	As information technology continues to progress and the prevalence of Internet, there are more and more data shared on websites. Many social webs, such as Facebook and Google Plus, provides geographical and location information for users, so the users can share their status and location to their friends. Those webs also allow users to upload information about places if the users are not able to find out needed information about current location.
	 We first develop a web crawler to get webpages from the website. When the system receiving a location (or a place name) from an application or users, data about the location is collected from websites by searching the name or GEO of the location (or place) by using Google Search API. Then, system identify all terms of web content by using Chinese knowledge information processing (CKIP) and determine a weighted value for each of these terms. The weighted value of a term is calculated by its Term Frequency(TF) and Inverse Document Frequency.
	 We use the content in“iPeen”website to define a keyword table, in which all terms are related to known category. In addition, the keyword table guarantee the specific number of relationship between terms and the type of category and hidden or latent additional attributes. 
	We quantize names of locations and obtain the three features: weight value, similarity, and matching rate of similarity. We can implement the classification through above three features, kNN and SVM. 
	Finally, we classify the locations into diet, accommodation, and recreation. When  we implement classification by the three features, the result is closely precise. When the value of k is smaller, the effect of kNN is better than the effect of SVM. In the future, the categories will be expanded to the range about living, like Clothing, Accommodation, Transportation, Education, and Recreation.
第三語言摘要
論文目次
目錄
第一章	緒論	1
1.1	前言	1
1.2	動機與目的	1
1.3	論文章節架構	3
第二章	相關研究與背景知識	5
2.1	機器學習技術	5
2.1.1	最近鄰居法(k-nearest neighbors, kNN)[3]	5
2.1.2	支持向量機(Support Vector Machine, SVM)	6
2.1.3	k-平均演算法(K-MEANS)[9]	7
2.2	相似度計算	8
2.2.1	歐幾里得距離(Euclidean distance)[11]	8
2.2.2	餘弦相似度(Cosine similarity)	8
2.3	CHINESE KNOWLEDGE AND INFORMATION PROCESSING(CKIP)	9
2.4	相關研究	10
第三章	研究方法	11
3.1	權重值計算	11
3.2	關鍵詞表	12
3.2.1	關鍵詞表製作	13
3.2.2	相似度計算	15
3.2.3	相似度符合率	16
3.3	實驗流程	17
第四章	研究成果	20
4.1	實驗環境	20
4.1.1	地點資料蒐集	20
4.1.2	網頁資料蒐集	22
4.1.3	詞彙資料蒐集	23
4.2	關鍵詞表	26
4.2.1	食物相關關鍵詞表	26
4.2.2	住相關關鍵詞表	28
4.2.3	育樂相關關鍵詞表	30
4.3	特徵值	32
4.4	數據討論	38
4.4.1	一個特徵值	39
4.4.2	兩個特徵值	40
4.4.3	三個特徵值	47
4.4.4	數據分析	53
第五章	結論與未來展望	55
參考文獻	56


圖目錄
圖 1-1打卡圖	2
圖 1-2僅有地點名稱的位置	3
圖 2-1 kNN範例圖	5
圖 2-2 SVM範例圖	6
圖 2-3 k-MEANS範例圖	7
圖 3-1權重值範例圖	12
圖 3-2關鍵詞表製作流程圖	13
圖 3-3實驗流程圖	17
圖 4-1資料蒐集範圍	21
圖 4-2兩個特徵值與公式 3-5的食物類型LibSVM圖	40
圖 4-3兩個特徵值與公式 3-5的住類型LibSVM圖	41
圖 4-4兩個特徵值與公式 3-5的育樂類型LibSVM圖	41
圖 4-5兩個特徵值與公式 3-6的食物類型LibSVM圖	42
圖 4-6兩個特徵值與公式 3-6的住類型LibSVM圖	43
圖 4-7兩個特徵值與公式 3-6的育樂類型LibSVM圖	43
圖 4-8兩個特徵值與公式 3-7的食物類型LibSVM圖	44
圖 4-9兩個特徵值與公式 3-7的住類型LibSVM圖	45
圖 4-10兩個特徵值與公式 3-7的育樂類型LibSVM圖	45
圖 4-11三個特徵值與公式 3-5的食物類型LibSVM圖	47
圖 4-12三個特徵值與公式 3-5的住類型LibSVM圖	48
圖 4-13三個特徵值與公式 3-5的育樂類型LibSVM圖	48
圖 4-14三個特徵值與公式 3-6的食物類型LibSVM圖	49
圖 4-15三個特徵值與公式 3-6的住類型LibSVM圖	50
圖 4-16三個特徵值與公式 3-6的育樂類型LibSVM圖	50
圖 4-17三個特徵值與公式 3-7的食物類型LibSVM圖	51
圖 4-18三個特徵值與公式 3-7的住類型LibSVM圖	52
圖 4-19三個特徵值與公式 3-7的育樂類型LibSVM圖	52


表目錄
表 3-1食物關鍵詞表	14
表 3-2刪除規則範例	18
表 4-1利用Facebook Place API所取得的地點名稱	21
表 4-2部分地點名稱與其相關網頁	22
表 4-3無用處詞性	24
表 4-4部分網頁與詞彙資料	24
表 4-5未處理食物關鍵詞表	26
表 4-6已處理食物關鍵詞表	27
表 4-7未處理住關鍵詞表	28
表 4-8已處理住相關詞表	29
表 4-9未處理育樂關鍵詞表	30
表 4-10已處理育樂關鍵詞表	31
表 4-11網頁與食物特徵值	32
表 4-12網頁與住特徵值	34
表 4-13網頁與育樂特徵值	35
表 4-14地點與食物特徵值	36
表 4-15地點與住特徵值	37
表 4-16地點與育樂特徵值	38
表 4-17一個特徵值的LibSVM準確率	39
表 4-18一個特徵值的iBk準確率	39
表 4-19兩個特徵值與公式 3-5的iBk準確率	42
表 4-20兩個特徵值與公式 3-6的iBk準確率	44
表 4-21兩個特徵值與公式 3-7的iBk準確率	46
表 4-22兩個特徵值的各方程式LibSVM準確率	46
表 4-23三個特徵值與公式 3-5的iBk準確率	49
表 4-24三個特徵值與公式 3-6的iBk準確率	51
表 4-25三個特徵值與公式 3-7的iBk準確率	53
表 4-26三個特徵值的各方程式LibSVM準確率	53
參考文獻
[1]	民生六大需求 [Online]. available: http://ap6.pccu.edu.tw/Encyclopedia_media/main-philosophy.asp?id=4056. 
[2]	J. Park, J. Park and J. Choi, "Web-Based Document Classification Using a Trie-Based Index Structure," in Web Intelligence and Intelligent Agent Technology Workshops, 2007 IEEE/WIC/ACM International Conferences on, 2007, pp. 52-55. 
[3]	k-nearest neighbors algorithm [Online]. available: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm. 
[4]	Rong-Lu Li and Yun-Fa Hu, "Noise reduction to text categorization based on density for KNN," in Machine Learning and Cybernetics, 2003 International Conference on, 2003, pp. 3119-3124 Vol.5. 
[5]	Hua Jiang, Ping Li, Xin Hu and Shuyan Wang, "An improved method of term weighting for text classification," in Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on, 2009, pp. 294-298. 
[6]	L. Li, Y. Che, H. Zhang, T. Li and M. Yang, "KNN text categorization algorithm based on LSA reduce dimensionality," in Information Technology and Artificial Intelligence Conference (ITAIC), 2011 6th IEEE Joint International, 2011, pp. 72-75. 
[7]	M. Engin and T. Can, "Text classification in the Turkish marketing domain for context sensitive ad distribution," in Computer and Information Sciences, 2009. ISCIS 2009. 24th International Symposium on, 2009, pp. 105-110. 
[8]	I. C. Kim, D. X. Le and G. R. Thoma, "Automated method for extracting “citation sentences” from online biomedical articles using SVM-based text summarization technique," in 2014 IEEE International Conference on Systems, Man, and Cybernetics (SMC), 2014, pp. 1991-1996. 
[9]	k-means clustering [Online]. available: https://en.wikipedia.org/wiki/K-means_clustering. 
[10]	P. Ni, J. Liao, X. Zhu and K. Ren, "News Contents Recommendation Model Based on Feedback of Web Usage," in Computer Science and Information Engineering, 2009 WRI World Congress on, 2009, pp. 431-435. 
[11]	Euclidean distance [Online]. available: https://en.wikipedia.org/wiki/Euclidean_distance. 
[12]	K. Taghva and R. Veni, "Effects of Similarity Metrics on Document Clustering," in Information Technology: New Generations (ITNG), 2010 Seventh International Conference on, 2010, pp. 222-226. 
[13]	A. Amine, Z. Elberrichi, M. Simonet and M. Malki, "WordNet-Based and N-Grams-Based Document Clustering: A Comparative Study," in Broadband Communications, Information Technology & Biomedical Applications, 2008 Third International Conference on, 2008, pp. 394-401.
[14]	Huaizhong Kou and G. Gardarin, "Similarity model and term association for document categorization," in Database and Expert Systems Applications, 2002. Proceedings. 13th International Workshop on, 2002, pp. 256-260. 
[15]	V.V. Raghavan and S.K.M. Wong, "A critical analysis of vector space model for information retrieval," Journal of the American Society for Information Science, vol. 37, no. 5, pp. 279-287 1986. 
[16]	G. Salton and C. Buckley, "Term-weighting approaches in automatic text retrieval," Information Processing & Management, vol. 24, no. 5, pp. 513-523, 01/01 1988.
[17]	J. Ni, F. Kong, P. Li and Q. Zhu, "Research on Cross-Document Coreference of Chinese Person Name," in Asian Language Processing (IALP), 2011 International Conference on, 2011, pp. 81-84. 
[18]	中文詞知識庫小組 [Online]. available: http://ckip.iis.sinica.edu.tw/CKIP/index.htm. 
[19]	Xue X., Zhou Z., "Distributional Features for Text Categorization, " 17th European conference on machine learning, Berlin, Germany, September 18-22, 2006
[20]	LI Li-shuang,HUANG De-gen,CHEN Chun-rong,YANG Yuan-sheng, "Identifying chinese place names based on support vector machines and rules,", vol. 20, no. 5, pp. 53, 2006-10-16 2006. 
[21]	TF-IDF [Online]. available: https://en.wikipedia.org/wiki/Tf%E2%80%93idf.
論文全文使用權限
校內
紙本論文於授權書繳交後3年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後3年公開
校外
同意授權
校外電子論文於授權書繳交後3年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信