系統識別號 | U0002-2507200714022000 |
---|---|
DOI | 10.6846/TKU.2007.00789 |
論文名稱(中文) | 運用分群演算法之關係式網頁推薦系統 |
論文名稱(英文) | Concept-Based Page Recommendation by Using Clustering Algorithm |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 資訊工程學系碩士班 |
系所名稱(英文) | Department of Computer Science and Information Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 95 |
學期 | 2 |
出版年 | 96 |
研究生(中文) | 呂敏源 |
研究生(英文) | Ming-Yuan Lu |
學號 | 694190637 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2007-06-26 |
論文頁數 | 54頁 |
口試委員 |
指導教授
-
郭經華(chkuo@mail.tku.edu.tw)
委員 - 陳孟彰 委員 - 劉遠楨 |
關鍵字(中) |
內容過濾 協同過濾 推薦系統 |
關鍵字(英) |
Content filtering Collaborative Filtering Recommendation System |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
如果將網際網路看成是目前資料量蘊藏量最大,資料提供者最多的一個資料庫,那麼如何去挖掘這麼龐大的資料庫,已經是近幾年來最熱門的研究議題,然而如何在廣大的資料庫中推薦給使用者合適的網頁,隨著推薦演算法相關研究中目前可以分成以內容導向,以及協同過濾為主。但是各有其缺點。本論文主要目的為探討如何結合內容導向以及協同過濾的優點,並且藉由分群演算法來改善以往推薦演算法因為使用者及推薦項目的增加,讓推薦計算的時間呈倍數成長的缺點,並且利用叢聚係數以提高推薦系統的可信度。 在本研究中,利用了代理伺服器來搜集使用者瀏覽網路的資訊,並且透過代理伺服器所記錄的存取記錄表單來建立使用者的瀏覽行為。在使用者搜集子系統最後,將利用存取表單中的網址重新抓取使用者所瀏覽過的內容。透過文章內容前處理系統,利用內容導向的觀念以擷取關鍵字的方法來得到文章特徵的描述,經過過濾不重要的關鍵字,讓文章的焦點集中在文章的主題上。透過推薦子系統利用階層式分群法將網頁分群,利用協同過濾的方式計算使用者在群組裡的推薦項目。 |
英文摘要 |
This paper intends to exploit the idea of sharing to design a method different from common recommendation system; we use the concept of user-to-user recommendation system. Using a grouping method, the user can receive groups of high interest and other users’ related browsing groups. In this research, we used a proxy server to search for information related to the user’s browsed webpages. From the records of the proxy server we construct a profile of the user’s browsing habits. At the end of the user’s search subsystem, we will use content based concept to extract keywords to obtain the article’s characteristics’ description. Unwanted keywords are filtered, so that the article’s focus is on the topic itself. From the recommendation system, the webpages will be classified using the hierarchical grouping method, and through collaborative filtering, the recommended webpages will be chosen. |
第三語言摘要 | |
論文目次 |
目錄 第1章 緒論 1 1.1 研究動機與目的 2 1.2 研究步驟 4 1.3 論文內容及大網 5 第2章 背景知識與相關研究 7 2.1分群演算法 7 2.1.1 分割式分群法 8 2.1.2 階層式分群法 9 2.2群聚度(CLUSTERING COEFFICIENT) 12 2.3英國國家標準語料庫 15 第3章.簡介推薦系統 18 3.1 推薦機制 20 3.1.1 內容導向法 21 3.1.2 協同過濾法 23 3.1.3綜合推薦法 25 第4章 關連式網頁推薦系統 27 4.1 使用者搜集子系統 29 4.1.1 代理伺服器 30 4.1.2可讀性檢測(Reading ability checking) 31 4.2 文章內容前處理子系統 32 4.2.1標點符號及數字移除 32 4.2.2 正規表示法過濾(Regular Expression Filtering) 33 4.2.3 關鍵字 36 4.3 網頁推薦子系統 38 第5章 實作介面 40 5.1 實作介面 40 5.2 實驗結果與討論 41 第6章 結論與未來研究方向 43 6.1 結論 43 6.2 未來研究方向 44 參考文獻 45 附錄 47 表目錄 表2.1 BNC語料內容分類表 17 表2.2 BNC語料與年齡關係表 17 表3.1 推薦演算法範例圖 18 表4-1 LOG FORMAT 29 表5.1 分群時間 41 表5.2 推薦時間比較圖 41 圖目錄 圖2.1 階層式分群演算法之流程圖 12 圖2.2 群聚度範例圖 14 圖4.1 階層式網頁推薦圖 28 圖4.2 使用者資料搜集系統 30 圖4.3 文章前處理系統 33 圖4.4 使用者群組概略圖 39 圖5.1 推薦介面圖 40 |
參考文獻 |
[1] Wikipeida - http://en.wikipedia.org/wiki/ [2] R. Baeza-Yates and B. Ribeiro-Neto, “Moderm Information Retrieval” , Addison Wesley Longman, Inc, May 1999. [3] G. Salton and M. J. McGill, “Introduction to Modern Information Retrieval”, McGraw-Hill Book Co., New York, 1983. [4] G. Gautam, and B.B Chaudhuri, “A Novel Genetic Algorithm for Automatic Clustering,” Pattern Recognition Letters, Vol. 25, 2004, pp. 173–187. [5] T.S. Chen, C.C. Lin, Y.H. Chiu and R.C. Chen “Combined Density- and Constraint-based Algorithm for Clustering,” In Proceedings of 2006 International Conference on Intelligent Systems and Knowledge Engineering, 2006. [6] J. Han, and M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2000. [7] B. Chen, P.C. Tai, R. Harrison, Yi. Pan, “Novel Hybrid Hierarchical-K-means Clustering Method (H-K-means) for Microarray Analysis” In Proceedings of 2005 Computational Systems Bioinformatics Conference, Workshops and Poster Abstracts. IEEE, 2005, pp. 105-108. [8] J. MacQueen, “Some Methods for Classification and Analysis of Multivariate Observations,” In Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, Vol. 1, 1967, pp. 281-297. [9] Duncan J. Watts & Steven H. Strogatz Collective dynamics of ‘small-world’ networks NATURE | VOL 393 | 4 JUNE 1998 [10] BNC - British National Corpus. [11] Adomavicius, G. and Tuzhilin, A., “Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions,”IEEE Transactions on Knowledge and Data Engineering, Vol. 17, No. 6, 2005, pp. 734-749. [12] Balabanovic, M. and Shoham, Y., “Fab: Content-based, Collaborative Recommendation,” Communications of the ACM, Vol. 40, No.3, 1997, pp. 66-72. [13] Niu, L., Yan, X. W., Zhang, C. Q. and Zhang, S. C., “Product Hierarchy-based Customer Profiles for Electronic Commerce Recommendation,” Proceedings of the First International Conference on Machine Learning and Cybernetics, Beijing, 2002, pp. 1075-1080. [14] Resnick, P., Iacovou, N., Suchak, M., Bergstrom, P. and Riedl, J., “GroupLens: An Open Architecture for Collaborative Filtering of Netnews,” Proceedings of the 1994 Computer Supported Cooperative Work Conference, Chapel Hill, 1994, pp. 175-186. [15] Linden, G., Smith, B., and York, J., “Amazon.com Recommendations Item to Item Collaborative Filtering,” IEEE Internet Computing, Vol. 7, No. 1, 2003, pp. 76-80. [15] Burke, R., “Knowledge-based Recommender Systems”, A. Kent(ed.): Encyclopedia of Library and Information Systems, Vol. 69, Supplement 32, 2000. [16] Suhit Gupta & Gail Kaiser & David Neistadt & Peter Grimm “DOM-bassed Content Extraction of HTML” Documents WWW 2003 [17] DOM: Document Object Model http://www.w3.org/DOM/ [18] Lan Yi & Bing Liu & Xiaoli Li “Eliminating Noisy Information in Web Pages for Data Ming” SIGKDD 2003 [19] Ming-Feng Lu , “The Design of an Agent for Finding Related Web Pages and its Application to English Learning”, Department of Computer Science and Information Engineering of Tamkang University, June 2006 [20] Chia-Chun Peng, “The Designing of a Web Page Recommendation System for ESL”, Department of Computer Science and Information Engineering of Tamkang University, January, 2007 |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信