系統識別號 | U0002-0308201613461000 |
---|---|
DOI | 10.6846/TKU.2016.00101 |
論文名稱(中文) | 基於內容感知的興趣點分類方法之研究 |
論文名稱(英文) | A Study of Content-aware Classification of POI |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 電機工程學系碩士班 |
系所名稱(英文) | Department of Electrical and Computer Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 104 |
學期 | 2 |
出版年 | 105 |
研究生(中文) | 謝仲興 |
研究生(英文) | Zhong-Xing Xie |
學號 | 603450197 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2016-07-11 |
論文頁數 | 59頁 |
口試委員 |
指導教授
-
衛信文
委員 - 朱國志 委員 - 吳庭育 |
關鍵字(中) |
分類 機器學習 爬蟲 相似度 支持向量機 最近鄰居法 |
關鍵字(英) |
classification Machine Learning web crawler Similarity SVM kNN |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
隨著資訊科技不斷的進步,網際網路的盛行,網路平台上有用來越多的訊息分享,在臉書和google等社群網站中,他們為使用者抓取經緯度和地點資料。使用者可以分享他們的地點和狀態給他們的朋友,而若使用者無法找到目前地點,他們也允許使用者自定義地點,但是使用者可能只會輸入地點名稱,如何將其訊息做正確的分類便成為一門嚴峻的學問。 我們設計網路爬蟲來取得網頁資料,當收到一個地點資料時,我們利用搜尋名稱並使用Google Search API來取得網頁以蒐集資料,我們使用CKIP來分類所有網頁內容的詞並計算所有值的權重,權重值是由(Term Frequency, TF)和(Inverse Document Frequency, IDF)所計算。 我們製作與類別相關的關鍵字表,並且使用IPeen網站以及淡水周邊已知分類類型的地點名稱來製作它,並且保證一定數量的詞跟分類類型相關以外,亦保留部分隱藏或者潛在附加屬性的詞。 我們將地點名稱量化,並且取權重值、相似度以及相似度符合率作為三個特徵值,並且利用這三個特徵值結合kNN以及SVM來達到分類的效果。 在最後我們將地點分為食、住與育樂等三類,並得到使用三個特徵值的結果為最好,且得到在k值較小的情況,kNN的分類效果會較佳的結論。在未來,我們希望能提升至食、衣、住、行、育與樂六類,並且期望能將地點以原本的單標籤延伸為多標籤,以此讓地點資料更為多樣性。 |
英文摘要 |
Abstract: As information technology continues to progress and the prevalence of Internet, there are more and more data shared on websites. Many social webs, such as Facebook and Google Plus, provides geographical and location information for users, so the users can share their status and location to their friends. Those webs also allow users to upload information about places if the users are not able to find out needed information about current location. We first develop a web crawler to get webpages from the website. When the system receiving a location (or a place name) from an application or users, data about the location is collected from websites by searching the name or GEO of the location (or place) by using Google Search API. Then, system identify all terms of web content by using Chinese knowledge information processing (CKIP) and determine a weighted value for each of these terms. The weighted value of a term is calculated by its Term Frequency(TF) and Inverse Document Frequency. We use the content in“iPeen”website to define a keyword table, in which all terms are related to known category. In addition, the keyword table guarantee the specific number of relationship between terms and the type of category and hidden or latent additional attributes. We quantize names of locations and obtain the three features: weight value, similarity, and matching rate of similarity. We can implement the classification through above three features, kNN and SVM. Finally, we classify the locations into diet, accommodation, and recreation. When we implement classification by the three features, the result is closely precise. When the value of k is smaller, the effect of kNN is better than the effect of SVM. In the future, the categories will be expanded to the range about living, like Clothing, Accommodation, Transportation, Education, and Recreation. |
第三語言摘要 | |
論文目次 |
目錄 第一章 緒論 1 1.1 前言 1 1.2 動機與目的 1 1.3 論文章節架構 3 第二章 相關研究與背景知識 5 2.1 機器學習技術 5 2.1.1 最近鄰居法(k-nearest neighbors, kNN)[3] 5 2.1.2 支持向量機(Support Vector Machine, SVM) 6 2.1.3 k-平均演算法(K-MEANS)[9] 7 2.2 相似度計算 8 2.2.1 歐幾里得距離(Euclidean distance)[11] 8 2.2.2 餘弦相似度(Cosine similarity) 8 2.3 CHINESE KNOWLEDGE AND INFORMATION PROCESSING(CKIP) 9 2.4 相關研究 10 第三章 研究方法 11 3.1 權重值計算 11 3.2 關鍵詞表 12 3.2.1 關鍵詞表製作 13 3.2.2 相似度計算 15 3.2.3 相似度符合率 16 3.3 實驗流程 17 第四章 研究成果 20 4.1 實驗環境 20 4.1.1 地點資料蒐集 20 4.1.2 網頁資料蒐集 22 4.1.3 詞彙資料蒐集 23 4.2 關鍵詞表 26 4.2.1 食物相關關鍵詞表 26 4.2.2 住相關關鍵詞表 28 4.2.3 育樂相關關鍵詞表 30 4.3 特徵值 32 4.4 數據討論 38 4.4.1 一個特徵值 39 4.4.2 兩個特徵值 40 4.4.3 三個特徵值 47 4.4.4 數據分析 53 第五章 結論與未來展望 55 參考文獻 56 圖目錄 圖 1-1打卡圖 2 圖 1-2僅有地點名稱的位置 3 圖 2-1 kNN範例圖 5 圖 2-2 SVM範例圖 6 圖 2-3 k-MEANS範例圖 7 圖 3-1權重值範例圖 12 圖 3-2關鍵詞表製作流程圖 13 圖 3-3實驗流程圖 17 圖 4-1資料蒐集範圍 21 圖 4-2兩個特徵值與公式 3-5的食物類型LibSVM圖 40 圖 4-3兩個特徵值與公式 3-5的住類型LibSVM圖 41 圖 4-4兩個特徵值與公式 3-5的育樂類型LibSVM圖 41 圖 4-5兩個特徵值與公式 3-6的食物類型LibSVM圖 42 圖 4-6兩個特徵值與公式 3-6的住類型LibSVM圖 43 圖 4-7兩個特徵值與公式 3-6的育樂類型LibSVM圖 43 圖 4-8兩個特徵值與公式 3-7的食物類型LibSVM圖 44 圖 4-9兩個特徵值與公式 3-7的住類型LibSVM圖 45 圖 4-10兩個特徵值與公式 3-7的育樂類型LibSVM圖 45 圖 4-11三個特徵值與公式 3-5的食物類型LibSVM圖 47 圖 4-12三個特徵值與公式 3-5的住類型LibSVM圖 48 圖 4-13三個特徵值與公式 3-5的育樂類型LibSVM圖 48 圖 4-14三個特徵值與公式 3-6的食物類型LibSVM圖 49 圖 4-15三個特徵值與公式 3-6的住類型LibSVM圖 50 圖 4-16三個特徵值與公式 3-6的育樂類型LibSVM圖 50 圖 4-17三個特徵值與公式 3-7的食物類型LibSVM圖 51 圖 4-18三個特徵值與公式 3-7的住類型LibSVM圖 52 圖 4-19三個特徵值與公式 3-7的育樂類型LibSVM圖 52 表目錄 表 3-1食物關鍵詞表 14 表 3-2刪除規則範例 18 表 4-1利用Facebook Place API所取得的地點名稱 21 表 4-2部分地點名稱與其相關網頁 22 表 4-3無用處詞性 24 表 4-4部分網頁與詞彙資料 24 表 4-5未處理食物關鍵詞表 26 表 4-6已處理食物關鍵詞表 27 表 4-7未處理住關鍵詞表 28 表 4-8已處理住相關詞表 29 表 4-9未處理育樂關鍵詞表 30 表 4-10已處理育樂關鍵詞表 31 表 4-11網頁與食物特徵值 32 表 4-12網頁與住特徵值 34 表 4-13網頁與育樂特徵值 35 表 4-14地點與食物特徵值 36 表 4-15地點與住特徵值 37 表 4-16地點與育樂特徵值 38 表 4-17一個特徵值的LibSVM準確率 39 表 4-18一個特徵值的iBk準確率 39 表 4-19兩個特徵值與公式 3-5的iBk準確率 42 表 4-20兩個特徵值與公式 3-6的iBk準確率 44 表 4-21兩個特徵值與公式 3-7的iBk準確率 46 表 4-22兩個特徵值的各方程式LibSVM準確率 46 表 4-23三個特徵值與公式 3-5的iBk準確率 49 表 4-24三個特徵值與公式 3-6的iBk準確率 51 表 4-25三個特徵值與公式 3-7的iBk準確率 53 表 4-26三個特徵值的各方程式LibSVM準確率 53 |
參考文獻 |
[1] 民生六大需求 [Online]. available: http://ap6.pccu.edu.tw/Encyclopedia_media/main-philosophy.asp?id=4056. [2] J. Park, J. Park and J. Choi, "Web-Based Document Classification Using a Trie-Based Index Structure," in Web Intelligence and Intelligent Agent Technology Workshops, 2007 IEEE/WIC/ACM International Conferences on, 2007, pp. 52-55. [3] k-nearest neighbors algorithm [Online]. available: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm. [4] Rong-Lu Li and Yun-Fa Hu, "Noise reduction to text categorization based on density for KNN," in Machine Learning and Cybernetics, 2003 International Conference on, 2003, pp. 3119-3124 Vol.5. [5] Hua Jiang, Ping Li, Xin Hu and Shuyan Wang, "An improved method of term weighting for text classification," in Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on, 2009, pp. 294-298. [6] L. Li, Y. Che, H. Zhang, T. Li and M. Yang, "KNN text categorization algorithm based on LSA reduce dimensionality," in Information Technology and Artificial Intelligence Conference (ITAIC), 2011 6th IEEE Joint International, 2011, pp. 72-75. [7] M. Engin and T. Can, "Text classification in the Turkish marketing domain for context sensitive ad distribution," in Computer and Information Sciences, 2009. ISCIS 2009. 24th International Symposium on, 2009, pp. 105-110. [8] I. C. Kim, D. X. Le and G. R. Thoma, "Automated method for extracting “citation sentences” from online biomedical articles using SVM-based text summarization technique," in 2014 IEEE International Conference on Systems, Man, and Cybernetics (SMC), 2014, pp. 1991-1996. [9] k-means clustering [Online]. available: https://en.wikipedia.org/wiki/K-means_clustering. [10] P. Ni, J. Liao, X. Zhu and K. Ren, "News Contents Recommendation Model Based on Feedback of Web Usage," in Computer Science and Information Engineering, 2009 WRI World Congress on, 2009, pp. 431-435. [11] Euclidean distance [Online]. available: https://en.wikipedia.org/wiki/Euclidean_distance. [12] K. Taghva and R. Veni, "Effects of Similarity Metrics on Document Clustering," in Information Technology: New Generations (ITNG), 2010 Seventh International Conference on, 2010, pp. 222-226. [13] A. Amine, Z. Elberrichi, M. Simonet and M. Malki, "WordNet-Based and N-Grams-Based Document Clustering: A Comparative Study," in Broadband Communications, Information Technology & Biomedical Applications, 2008 Third International Conference on, 2008, pp. 394-401. [14] Huaizhong Kou and G. Gardarin, "Similarity model and term association for document categorization," in Database and Expert Systems Applications, 2002. Proceedings. 13th International Workshop on, 2002, pp. 256-260. [15] V.V. Raghavan and S.K.M. Wong, "A critical analysis of vector space model for information retrieval," Journal of the American Society for Information Science, vol. 37, no. 5, pp. 279-287 1986. [16] G. Salton and C. Buckley, "Term-weighting approaches in automatic text retrieval," Information Processing & Management, vol. 24, no. 5, pp. 513-523, 01/01 1988. [17] J. Ni, F. Kong, P. Li and Q. Zhu, "Research on Cross-Document Coreference of Chinese Person Name," in Asian Language Processing (IALP), 2011 International Conference on, 2011, pp. 81-84. [18] 中文詞知識庫小組 [Online]. available: http://ckip.iis.sinica.edu.tw/CKIP/index.htm. [19] Xue X., Zhou Z., "Distributional Features for Text Categorization, " 17th European conference on machine learning, Berlin, Germany, September 18-22, 2006 [20] LI Li-shuang,HUANG De-gen,CHEN Chun-rong,YANG Yuan-sheng, "Identifying chinese place names based on support vector machines and rules,", vol. 20, no. 5, pp. 53, 2006-10-16 2006. [21] TF-IDF [Online]. available: https://en.wikipedia.org/wiki/Tf%E2%80%93idf. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信