§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0203201023180600
DOI 10.6846/TKU.2010.00027
論文名稱(中文) 基於社群行為之網頁推薦
論文名稱(英文) Recommended based on Social Behavior
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士在職專班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 98
學期 1
出版年 99
研究生(中文) 鄭松棻
研究生(英文) Song-Fen Cheng
學號 794190180
學位類別 碩士
語言別 繁體中文
第二語言別 英文
口試日期 2010-01-15
論文頁數 63頁
口試委員 指導教授 - 蔡憶佳
委員 - 林政錦
委員 - 顏淑惠
委員 - 蔡憶佳
關鍵字(中) 資料探勘
網頁資料探勘
使用者分群
關鍵字(英) Data Mining
Web Data Mining
User Grouping
第三語言關鍵字
學科別分類
中文摘要
隨著電腦科技的日益精進,網際網路的快速成長,促使了數位化資料大量的產生。 網際網路變成一個龐大的資訊來源和提供豐富且有價值的資源,每一個Web站點就像是一個資料源,這些資料源可以看成廣泛意義上的資料庫,這比傳統意義上的資料庫更大、更複雜。透過網址連結,這些內容和組織都不同的Web站點就構成了一個巨大的異構資料庫環境。

以目前全球資訊網上擁有的巨量資訊,如果沒有高效率搜尋引擎的幫助,尋找資訊將如同大海撈針一般困難,今天已有許多商業的搜尋引擎試圖滿足此類搜尋工作的需求,例如:Google,Yahoo,Ask與Microsoft Live Search:等。搜尋引擎多會依照某種方式進行排序,把相關的網路搜尋結果以排名順序列表一一提供使用者去瀏覽,讓使用者依照搜尋結果摘要的內容自行挑選。然而這樣的瀏覽方式極度沒有效率,因為網路搜尋結果通常相當的多,而一般使用者大多只會有耐心瀏覽搜尋結果的前若干筆,而且這類排名順序列表的呈現方式會使得很多關於使用者查詢的子議題通通混雜在一起,很容易造成使用者錯過重要資訊。此外,在檢索過程中,有許多使用者並非一直在進行關鍵字檢索,而是花費更多時間在瀏覽檢索的結果。

然而,一個主要的問題是使用網頁內容與超連結方式的搜尋機制的搜尋引擎只能反映出網頁著作者的觀點而不是閱讀者的。在本論文中,我們根據使用者瀏覽網頁的內容發展網頁使用者群聚探勘技術。並且根據我們的實驗結果,可以透過使用者瀏覽過的網頁將網頁內容分群並且應用在網頁推薦上。
英文摘要
Pushed by the increasing advancement of computer technology and the rapid growth of the Internet, digital information has been produced on a mass scale. Internet network has become a huge information source and provided rich and valuable resource. Every Web site is like a data source, and these sources can be seen as a database in general sense, even large and more complex than the database in conventional sense. Via website links, these Web sites with different contents and organizations constitute a large heterogeneous database environment.
Without the help of efficient search engines, finding the wanted information from the current World Wide Web will be as difficult as looking for a needle in the haystack. Today there are many commercial search engines to meet such needs, for instance: Google, Yahoo, Ask and Microsoft Live Search, and so on. Search engines usually will rate and list the searched results according to their relevancy for users to browse and choose the summary contents of the searched results.  Such a browsing mode is extremely inefficient, since the quantity of web search results is usually quite huge and most general users only browse a number of searched results listed in the beginning.  Besides, this kind of rating and listing would make a lot of sub-topics searched mixed up with the wanted ones. This also tends to cause users to miss important information. In addition, in the process of retrieval, many users usually do not keep conducting keyword searches but instead spending more time browsing the searched results.
However, a major problem is that the search engines using the search mechanism of web contents and hyperlink mode can only reflect web authors’ views but not readers’.  In this paper, we based on users’ browsing web contents to develop web user clustering mining technology. And according to our experimental results, users can classify the web contents (of the websites browsed by them) and apply those contents to the web recommendation through the websites browsed by them.
第三語言摘要
論文目次
第1章 緒論	1
1.1 研究動機與目的	2
1.2 研究內容	4
1.3 論文內容大綱	5
第2章 背景知識與相關研究	6
2.1 網路資訊探勘的類型	6
2.2 分群技術簡介	9
2.2.1 文件分類與分群	9
2.2.2 分群演算法	12
2.3 推薦機制	15
2.3.1 內容過濾	15
2.3.2 協同過濾	17
2.3.3 使用者分群法	18
2.4 代理伺服器	22
2.4.1 何謂代理伺服器	22
2.4.2 代理伺服器的運作方式	22
2.4.3 代理伺服器的用途	23
第3章 推薦架構	25
3.1 推薦架構圖	25
3.2 網站日誌檔	26
3.3 使用者查詢與瀏覽行為	28
3.3.1 使用者瀏覽行為訓練	29
3.3.2 網頁內容前置處理	33
3.3.3 推薦機制	41
第4章 實驗步驟與結果	43
4.1 實驗步驟	43
4.2 計算網頁群聚相似度	45
4.2.1 評估方法	46
4.2.2 關鍵詞斷詞結果評估	46
4.3 實驗資料簡介	47
4.4 實驗結果評估	48
4.5 推薦效果評估	51
第5章 結論與未來研究	52
5.1 結論	52
5.2 未來研究方向	53
參考文獻	55
附錄---英文論文	58 

圖目錄
圖 2.1 分群演算法處理過程的方式	12
圖 2.2 社群推薦流程	21
圖 2.3 Proxy Server的運作原理簡介	22
圖 3.1 推薦架構圖	26
圖 3.2 前處理簡易流程圖	29
圖 3.3 抓取網頁內容	30
圖 3.4 關係網頁資料庫	33
圖 3.5 中文詞知識庫斷詞結果	40
圖 4.1 實驗流程圖	44
圖 4.2 精確率與召回率之關係圖	46

表目錄
表 2-1 網路資訊挖掘類型比較	8
表 2-2 階層式與非階層式分群	14
表 3-1 網站日誌檔資料表	27
表 4-1 關鍵詞斷詞結果	47
表 4-2 網頁群組資料分類表	47
表 4-3 雙連字串在向量模式中的分類實驗結果	48
表 4-4 雙字串與多字串在向量模式中實驗結果的比較	48
表 4-5 減少訓練資料數量所得的實驗結果	49
表 4-6 只取前幾行來做分類所得的實驗結果	49
表 4-7 減少訓練資料數量所得的實驗結果	50
參考文獻
[1] Yang, Y., and Liu, X. “A Re-Examination of Text Categorization Methods,” In Proceedings of SIGIR-99,22nd ACM International Conference on Research and Development in Information Retrieval (Berkeley, CA), pp.42-49, 1999.
[2] Joachims, T. “A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for  Text  Categorization,” Proceedings of the 14th International Conference  on Machine Learning ICML97, pp. 143-151, 1997.
[3] 	Pazzani, M., amd Billsus, D. “Learning and Revising User Profiles: The Identification of Interesting Web Sites,” Machine Learning 27, Kluwer Academic Publishers, pp. 313-331, 1997.
[4] A. Ansari, S. Essengaier, and R. Kohli, “Internet Recommendation Systems”, Journal of Marketing Research, 37(3), pp.363-375, Aug. 2000.
[5] Schafer, J.B., Konstan, J.A., and Riedl, J., “Electronic Commerce Recommender Applications”, Journal of Data Mining and Knowledge Discovery, 5(1/2), pp.115-152. 2001
[6] M. Pazani, J. Muramatsu, and D. Billsus. “Syskill & Webert: Identifying interesting Web sites”, In Proc. of the National Conference on Artificial Interlligence, AIII, pp.54-61, 1996.
[7] J. Rucker and M.J. Polanco, “Siteseer: personalized navigation for the Web”, Communications of the ACM, 35(12), pp.73-75, Dec.1992.
[8] B. Krulwich and C. Burkey, “Learning user information interests through extraction of semantically significant phrases”, In Proc. of the AAAI Spring Symposium on Machine Learning in Information Access, Stanford, CA, 1996.
[9] Lang, K. “NewsWeeder: Learning to filter Netnews”, In Proc. of the Twelfth International Conference on Machine Learning, pp.331-339 1995.
[10] M.J. Pazzani, “A framework for collaborative, content-based and demographic filtering”, Artificial Intelligence Review, pp.393-408,1999.
[11] R.J. Mooney and L. Roy, “Content-based book recommending using learning for text categorization”, In Proc, of the 5’th ACM Conf. on Digital Libraries, pp.195-240, June 2000.
[12] J.S. Breese, D. Heckerman and C. Kadie, “Empirical analysis of predictive algorithms for collaborative filtering”, Tech. Report, MSR-TR-98-12, Microsoft Research, Oct. 1998.
[13] DOM: Document Object Model	http://www.w3.org/DOM/
[14] Suhit Gupta & Gail Kaiser & David Neistadt & Peter Grimm “DOM-based Content Extraction of HTML”, Documents WWW 2003
[15] Lan Yi & Bing Liu & Xiaoli Li “Eliminating Noisy Information inWeb Pages for Data Mining” , SIGKDD 2003.
[16] Salton G. and Buckley G., “Term-weighting approaches in automatic text retrieval”, Information Processing and Management, 24, pp513-523, 1988
[17] Fabrizio, S., Machine Learning in Automated Text  Categorization, ACM Computing Surveys, 34(1), p1-47, 2002
[18] Jackson, P. and Moulinier, I., Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization, Natural Language Processing, Volume 5, John Benjamins Publishing Company, Amsterdam or Philadelphia 2002
[19] Chen, K.J. and Liu, S.H. "Word Identification for Mandarin Chinese Sentences." Proceedings of COLING, pp. 101-107,1992.
[20] Sproat Richard and Shilin Shih. “A Corpus-Based Analysis of Mandarin Nominal Root Compound,” Journal of East Asian Linguistics 5, pp. 49-71, 1996.
[21] Sparck Jones, K. , A Statistical Interpretation of Term Specificity and its Application in Retrieval, Journal of Documentation, 28(1), p11-21, 1972
[22] G. Salton and M. E.Lesk. Computer evaluation of indexing and text processing. Journal of the ACM, 15(1):8-36, January 1968.
[23] Salton, G. and McGill, M. J., The SMART and SIRE Experimental Retrieval Systems, McGraw-Hill, New York, 1983
[24] 中央研究院中文斷詞系統,URL:http://ckipsVr.iis.sinica.edu.tw/
[25] 中央研究院詞庫小組,URL:http://godel.iis.sinica.edu.tw/CKIP
/index.htm
論文全文使用權限
校內
紙本論文於授權書繳交後2年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後2年公開
校外
同意授權
校外電子論文於授權書繳交後2年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信