淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2007200613461100
中文論文名稱 搜尋相關網路文章代理人之設計並應用於英語學習
英文論文名稱 The Design of an Agent for Finding Related Web Pages and its Application to English Learning
校院名稱 淡江大學
系所名稱(中) 資訊工程學系碩士班
系所名稱(英) Department of Computer Science and Information Engineering
學年度 94
學期 2
出版年 95
研究生中文姓名 呂明峰
研究生英文姓名 Ming-Feng Lu
學號 693190141
學位類別 碩士
語文別 中文
口試日期 2006-06-29
論文頁數 62頁
口試委員 指導教授-郭經華
委員-陳孟彰
委員-王英宏
中文關鍵字 搜尋引擎  網頁爬行者  相關網頁 
英文關鍵字 Search engines  web crawler  Related pages 
學科別分類 學科別應用科學資訊工程
中文摘要   在本論文中,我們設計一個搜尋相關網頁代理人系統,幫助使用者在網路英語學習的環境中,快速找到可供學習閱讀的網路文章,提高學習的效率。
  在網頁蒐集部份,不同於一般搜尋引擎蒐集方式,我們只蒐集學習者曾經瀏覽過網頁與其延伸的相關網頁,節省了網路資源及儲存空間的花費。在搜尋相關網頁部份,當學習者想要找出目前閱讀文章的相關網頁時,為了避免在對語言還不熟悉的情況下,輸入不適當的關鍵字,浪費許多找尋相關網頁的時間,所以我們設計了不需輸入任何關鍵字,就能自動找出這篇文章相關網頁的方法,讓使用者很快的找到更多相似文章來閱讀。
  在實作中,我們利用代理人系統個人化的特性,來蒐集使用者曾經瀏覽過的網頁主題,並根據相關網頁會有相互連結的特性,將同一主題的網頁抓取回來,這部份利用到Google搜尋引擎工具,幫助我們取得網頁的父連結。在搜尋相關網頁方面,我們採用連結為基礎的搜尋方式,再結合內容為基礎的概念,提高相關網頁內容的權重,讓找到的相關網頁更加符合學習者閱讀的需求。
英文摘要   In this thesis, we have designed an agent that aids English learners in finding related web pages that would help them in learning and thus increase their learning proficiency.
  The fact that many users not fluent in English may provide inappropriate keywords and end up with unrelated search results is acknowledged. Unlike common search engines, we have designed an agent in which web pages related to an essay can be found easily and quickly for the learner, without ever having to provide a keyword.
  Our system can be personalized according to each user. It first recognizes the browsed web page’s theme, finds related links, and finally obtains other web pages with the same theme. To search for related web pages, we first used links as a primary search method, and then combined this search with each webpage’s content. This would help in finding more relevant web pages, as the importance of the content is acknowledged.
論文目次 第1章 緒論 4
1.1 研究動機與目的 4
1.2 研究內容 7
1.3 論文內容大綱 8
第2章 背景知識及相關研究 10
2.1 搜尋引擎系統之介紹 10
2.2 搜尋引擎系統之相關技術 12
2.2.1 網頁蒐集機制 12
2.2.2 以內容為基礎之相關網頁搜尋技術 13
2.2.3 以連結為基礎之相關網頁搜尋技術 16
2.2.4 網頁排名(PageRank) 24
2.3 其他相關研究 27
第3章 系統架構 28
3.1 網路文章蒐集系統 30
3.1.1 結合代理人特性與搜尋引擎優點 30
3.1.2 網頁蒐集系統流程 32
3.1.3 網頁蒐集系統的優缺點 34
3.2 網路文章關連性資料庫 36
3.3 相關網頁檢索系統 37
3.3.1 系統流程 38
3.3.2 給定網頁內容權重 39
3.3.3 計算hub與authority分數 40
第4章 代理人實作與討論 42
4.1 主從架構 42
4.2 使用者介面 42
4.3 伺服器端服務 44
第5章 結論與未來研究 49
5.1 結論 49
5.2 未來研究方向 50
參考文獻 51
附錄 54

表目錄

表2.1 查詢網頁在ODP中的分類 23
表2.2 相關網頁在ODP中的分類 23
表3.1 網頁內容資料表 36
表3.2 網頁連結關係資料表 36
表4.1 不同相關網頁搜尋方法的效能與結果比較 47

圖目錄

圖2.1 Ө的餘弦值代表 15
圖2.2 hub與authority關係圖 18
圖2.3 給定邊權重 21
圖2.4 簡單的PageRank計算方式 25
圖3.1 代理人系統架構 28
圖3.2 網頁蒐集系統流程圖 34
圖3.3 相關網頁檢索系統流程圖 38
圖3.4 (1)計算n節點的auhtority分數,(2)計算n節點的hub分數 40
圖4.1 代理人介面 43
參考文獻 [1] S. M. Shieh, Personal Documents Recommendation System Based on Data Mining Techniques. In Proc. of AAAI, 1999.
[2] Dragomir R. Radevyz, WebInEssence: A Personalized Web-Based Multi-Document Summarization and Recommendation System. In Proc. of NAACL Workshop on Automatic Summarization, 2001.
[3] J. Kleinberg, Authoritative sources in a hyperlinked environment, in Proc. of the 9th Annual ACM–SIAM Symposium on Discrete Algorithms, pp. 668–677, January 1998.
[4] Sergey Brin and Larry Page, Google. http://www.google.com
[5] Yahoo. http://www.yahoo.com
[6] MSN. http://www.msn.com
[7] Open Directory Project (ODP). http://dmoz.org
[8] A. Heydon and M. Najork. Mercator: A scalable,extensible web crawler. In Proc. of Word Wide Web, 2(4):219–229, December 1999.
[9] L. Page and S. Brin. The anatomy of a large-scale hypertextual web search engine. In Proc. of WWW Conf., 1998.
[10] BHARAT, K., BRODER, A., HENZINGER, M. R., KUMAR, P., AND VENKATASUBRAMANIAN, S. 1998.The Connectivity Server: fast access to linkage information on the Web. In Proc. of the 7th International World Wide Web Conference.
[11] M. T. Ozsu and P. Valduriez. Principles of Distributed Database Systems. Prentice Hall, 1999.
[12] A. S. Tanenbaum and R. V. Renesse. Distributed operating systems. ACM Computing Surveys, 17(4), December 1985.
[13] Chakrabarti, S., van den Berg, M. and Dom, B. Focused crawling: a new approach to topic-specific Web resource discovery. In Proc. of the 8th International World Wide Web Conference, Toronto, Canada, 1999.
[14] J. Cho and H. Garcia-Molina. Synchronizing a database to improve freshness. In Proc. of SIGMOD Conf., 2000.
[15] G. Salton and M. J. McGill,“Introduction to Modern Information Retrieval”, McGraw-Hill Book Co., New York, 1983
[16] R. Baeza-Yates and B. Ribeiro-Neto,“Moderm Information Retrieval”, Addison Wesley Longman, Inc, May 1999.
[17] ZHANG, T., RAMAKRISHNAN, R., AND LIVNY, M. 1996. BIRCH: An efficient data clustering method for very large databases. SIGMOD Rec. 25, 2, 103–114.
[18] DEAN, J. and HENZINGER, M. R. Finding related pages in the world wide web. In Proc. of the Eighth International Conference on The World-Wide Web, 1999.
[19] K. Bharat and M. Henzinger. Improved algorithms for topic distillation in hyperlinked environments, in Proc. of the 21st International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’98), pp.104–111, 1998.
[20] Taher H. Haveliwala, Evaluating Strategies for Similarity Search on the Web. Proceedings of the 11th international conference on World Wide Web, 2002.
[21] L. Page, S. Brin, R. Motwani, and T. Winograd. The PageRank citation ranking: Bringing order to the web. Technical report, Stanford University, Stanford, CA, 1998.
[22] Soumen Chakrabarti, Byron Dom, Prabhakar Raghavan, Sridhar Rajagopalan, Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text. WWW7 / Computer Networks, 1998
[23] Yitong Wang, Masaru Kitsuregawa. Evaluating Contents-Link Coupled Web Page Clustering for Web Search Results. In Proc. of the eleventh international conference on Information and knowledge management, 2002.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2006-08-03公開。
  • 同意授權瀏覽/列印電子全文服務,於2006-08-03起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信