淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1202201011251900
中文論文名稱 植基於網頁結構的資料區塊化自動分類
英文論文名稱 Automatic Identification of Data Blocks based on Web Page Structure
校院名稱 淡江大學
系所名稱(中) 資訊工程學系碩士在職專班
系所名稱(英) Department of Computer Science and Information Engineering
學年度 98
學期 1
出版年 99
研究生中文姓名 廖益辰
研究生英文姓名 Yi-Chen Liso
學號 796410255
學位類別 碩士
語文別 中文
第二語文別 英文
口試日期 2010-01-15
論文頁數 55頁
口試委員 指導教授-蔡憶佳
委員-顏淑惠
委員-林政錦
委員-蔡憶佳
中文關鍵字 網頁結構 
英文關鍵字 web page structure 
學科別分類 學科別應用科學資訊工程
中文摘要 網際網路發展至今的普及化,再加上使用者瀏覽行為的改變,許多資料內容的取得已漸漸地從紙本轉移至網際網路上,如:新聞網站資訊的提供就是一例。然而,隨著網際網路資訊量愈來愈多,使得自動化資料收集的機制成為一個不可或缺的重要工具。
目前一般資料收集的方法,除了網站有提供Really Simple Syndication(RSS)機制可供用戶訂閱之外,其餘便是以特定程式分析網頁結構的方法取得網頁資料,但若當網頁視覺結構改變時,那麼分析網頁程式便得重新改變。因此,本篇論文希望提出一個可自動化分析網頁結構的方法,經由分析網頁結構,找出網頁結構樣式,並加以驗證後,使得該網頁結構樣式成為分析規則。
本文利用其分析規則,對實驗目的網站每一個小時擷取一次資料,並且比對資料更新的新聞項目,經驗證後本論文所提出的方法確實能自動化地分析網頁結構,並達到資料收集的目的。
英文摘要 The internet has been a major source of information. It has taken the place of paper and become the most popular medium, such as: News web sites. Therefore, developing an automatic data collection technology is very important.
At present the Really Simple Syndication (RSS) is a general of data collection method for the users. Besides, it is use the specific program analysis web page structures to obtain the web page information. When the web page changed, the program must be rewritten. Therefore, this paper provides an automated analysis web page structure method. Using this method find the web page pattern and approved it can be the rule. It has been tested in automatic collection of web page data.
論文目次 1 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目標 4
1.4 論文架構 7
2 相關研究與討論 8
2.1 利用標籤特性切割網頁的方法 13
2.2 適用於小型瀏覽器上的網頁改寫方法 14
2.3 利用比較二網頁找出資料區域 15
2.4 單一網頁擷取 16
3 研究方法 17
3.1 網頁雜訊去除 22
3.2 網頁資料的比對 24
3.3 廣告區塊的判別 26
3.4 擷取規則樣式的建立 28
4 研究架構與實作說明 30
4.1 開發與實驗環境 30
4.2 實驗內容 30
4.3 研究結果 32
4.3.1 標籤樣式規則擷取結果 32
4.3.2 網頁區塊資料擷取結果 36
5 結論與未來展望 40
5.1 結論 40
5.2 未來展望 41
參考文獻 42
<附錄1> 各網頁擷取資料結果 43
<附錄2> 英文論文 48


圖目錄
圖 1網頁套版程式流程 2
圖 2網頁內容主頁以條列式呈現標題 5
圖 3檢視網頁內容原始碼 5
圖 4新聞資料內容的網頁 6
圖 5HTML標籤文件原始碼 10
圖 6HTML文件樹的表示圖 10
圖 7將HTML樹狀圖以元素階層表示 11
圖 8依其Rule特性網頁可被區分成數個區塊 14
圖 9適用於小型瀏覽器上的網頁 15
圖 10利用比較二網頁找出資料區域 16
圖 11單一網頁擷取法 Before (A) 17
圖 12網頁監看系統架構圖 18
圖 13分析模組流程圖 19
圖 14DOM中屬於葉子節點(leaf node)的部份 20
圖 15擷取網頁中屬於標籤a的結果 23
圖 16利用兩時間點的網頁比對出資料有變動區塊 24
圖 17將同性質的標籤屬性做同質分類 27
圖 18標籤屬性的分類1 27
圖 19標籤屬性的分類2 28
圖 20標籤規則樣式 29


表目錄
表 1Different rules for different DOM nodes 13
表 2比對兩時間點網頁後的結果(資料有變動的區塊) 25
表 3比對兩時間點網頁後的結果(資料沒變動的區塊) 26
表 4實驗網址列表 31
表 5二個時間點的新聞標題 37
表 6更新的新聞標題 38
表 7keyBuy 擷取結果 39
參考文獻 [1] Li Qingcheng and Li Youmeng, Extracting Content from Web Pages Based on RSS. 2008 International Conference on Computer Science and Software Engineering, WWW2008, pp. 218-221, Wuhan, Hubei, Dec 12-14, 2008
[2] http://zh.wikipedia.org/zh-hant/RSS
[3] http://zh.wikipedia.org/zh-tw/Atom
[4] S. Yu, D. Cai, J.-R. Wen, and W.-Y. Ma. Improving pseudo-relevance feedback in web information retrieval using web page segmentation. In Proceedings of the Twelfth International World Wide Web Conference, WWW2003, pp. 11-18, Budapest, Hungary, May 20-24, 2003.
[5] Y. Chen, W.-Y. Ma, and H.-J. Zhang. Detecting web pages structure for adpative viewing on small form factor devices. In Proceedings of the Twelfth International World Wide Web Conference, WWW2003, pp. 225-266, Budapest, Hungary, May 20-24, 2003.
[6] Z. Bar-Yossef and S. Rajagopalan. Template detection via data mining and its applications. In Proceedings of the Eleventh International World Wide Web Conference, WWW2002, pp. 580-591, Honolulu, Hawaii, USA, May 7-11, 2002.
[7] S. Gupta, G. Kaiser, D. Neistadt, and P. Grimm. DOM-based content extraction of HTML documents. In Proceedings of the Twelfth International World Wide Web Conference, WWW2003, pp. 207-214, Budapest, Hungary, May 20-24, 2003.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2015-03-03公開。
  • 同意授權瀏覽/列印電子全文服務,於2013-03-03起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信