淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2706201109260600
中文論文名稱 視覺化網頁區塊擷取
英文論文名稱 Visual Block-based Data Extraction from Web Page
校院名稱 淡江大學
系所名稱(中) 資訊工程學系碩士班
系所名稱(英) Department of Computer Science and Information Engineering
學年度 99
學期 2
出版年 100
研究生中文姓名 莊政洋
研究生英文姓名 Cheng-Yang Chuang
學號 698410270
學位類別 碩士
語文別 中文
第二語文別 英文
口試日期 2011-06-16
論文頁數 43頁
口試委員 指導教授-蔡憶佳
委員-蔡憶佳
委員-林政錦
委員-林慶昌
委員-林慧珍
中文關鍵字 資料擷取  網頁分割  視覺區塊 
英文關鍵字 Data extraction  Page segmentation  Visual block 
學科別分類 學科別應用科學資訊工程
中文摘要 現今網際網路上所存在的資料量越來越大、越來越豐富,並且以非常快的速度持續成長。使用者常常需要在各個主要內容來源網站搜集新資訊,更有不少人是幾乎每天會固定瀏覽一些特定的網頁,查看持續更新的內容。使用上的需求逼迫人們必須要在各個內容來源網站之間跳躍,只是為了查看是否存在自己感興趣的資料。這樣高頻率的在不同頁面間跳轉瀏覽,提高了資訊蒐集的成本,如何讓資訊的取得更方便快速,是一個重要的課題。
自動擷取網頁內容的方法大致分為兩個方向,傳統的方法是針對目標網站寫一個擷取程式,透過人工觀察網頁原始碼的方式,設計出內容擷取的流程。而這樣的作法除了需要具有程式撰寫能力外,如果擷取目標網站不只一個,就需要針對每一個網站撰寫各自獨立的擷取流程。另一類方法是透過預先定義的判斷方式,去自動判定不同網頁中的資料所在位置,再加以擷取下來。但頁面中到底哪些資料對使用者來說是感興趣的,非常難給予一個精確定義,導致系統在資料區域的定義上很難有一個通用的解釋。在本篇論文中提出VBDE (Visual Block-based Data Extraction) 網頁區塊擷取演算法,並結合視覺化操作介面,實作一個視覺化的資料擷取系統。使用者不需要具備相關背景知識,就能在一個直覺的操作環境下指定網頁中想要擷取的特定區塊。在不同的網頁間,有效的適應並正確擷取資料。
英文摘要 With the explosive growth of web pages available on the Internet, network has become a major source of information for a large number of users. Those users will regularly browse specific websites to check for new information. High-frequency jumps between different web pages increase data collection cost. Therefore, how to efficiently retrieve users’ interested information from different web pages is an important issue.
There are two major categories of algorithm in extracting contents of web pages automatically. First, we can observe source code of web page and write a specific program to capture those data of our interest. However you must have the ability to write the program and if you want to capture data from different web pages, then you need to write different programs for different web pages. Another way to extract content data is by defining rules. Use extracting rules to find the data of our interest. Nevertheless, a set of general rules to describe users interested data region is hard to define.
In this paper, we propose VBDE (Visual Block-based Data Extraction) algorithm to extract the specific data block from different web pages. We provide user a visual data extraction system without requiring users to have deep knowledge such as how to define rules for capturing information in the web page or how to program in specific programming language.
論文目次 第一章 緒論 1
1.1 研究動機 1
1.2 研究目的 2
第二章 相關研究 3
2.1 結構性特徵 3
2.2 視覺線索 6
第三章 視覺化網頁區塊擷取 15
3.1 問題定義 15
3.2 VBDE ─ 網頁解譯 17
3.3 VBDE ─ 區塊分析 17
3.4 VBDE ─ 區塊重組 23
3.5 VBDE ─ 建構視覺區塊樹 25
第四章 實作 27
4.1 操作介面 27
第五章 結論與未來展望 32
參考文獻 34
附錄─英文論文 36

圖目錄
圖1: (a)網頁HTML節點樹狀結構(b)一般化節點以灰色表示 3
圖2: Null Record頁面 4
圖3: 以『資料結構』為關鍵字,在博客來網路書店的查詢結果 5
圖4: 偵測分隔線 6
圖5: VIPS分割結果 7
圖6: VSAP系統架構圖 8
圖7: (a)網頁中HTML標籤對應的矩形區塊(b)最大矩形區塊 9
圖8: (a)網頁區塊化後的資料區域擷取(b)區塊樹狀圖 10
圖9: 資料區域內的區塊切割 11
圖10: (a)資料區域內呈現的元素區塊(b)資料元素重組 12
圖11: 將網頁投影到X-profile以及 Y-profile 13
圖12: iGoogle個人化首頁 15
圖13: 網頁HTML原始碼結構與對應的DOM Tree範例 17
圖14: (a)網頁原始碼樹狀圖(b)網頁原始碼(c)網頁版面樣式呈現 19
圖15: (a)網頁原始碼(b)網頁原始碼樹狀圖(c)標籤區塊擴張 20
圖16: (a)HTML標籤對應矩形(b)HTML標籤結構 21
圖17: 矩形偏移 22
圖18: (a)HTML標籤關係結構(b)網頁版面(c)重組後HTML標籤關係結構 24
圖19: (a)B2節點修正前對應可視矩形範圍(b) B2節點修正後對應可視矩形範圍 25
圖20: 操作介面 27
圖21: 操作介面 (畫面中網頁來自http://www.mobile01.com) 28
圖22: 操作介面 (畫面中網頁來自http://www.mobile01.com) 28
圖23: 區塊萃取效果 (畫面中網頁來自http://www.mobile01.com) 29
圖24: 區塊萃取效果 (畫面中網頁來自http://www.yahoo.com.tw) 29
圖25: 區塊重組後對應到一個多邊形區塊 30
圖26: 區塊整合 31
圖27: 區塊整合 31

表目錄
表1: 效能比較 32
參考文獻 [1] H. F. L. Alberto, A. R.-N. Berthier, S. d. S. Altigran, and S. T. Juliana, "A brief survey of web data extraction tools," ACM SIGMOD Record, vol. 31, pp. 84-93, 2002.
[2] A. Arvind and G.-M. Hector, "Extracting structured data from web pages," in Proceedings of the 2003 ACM SIGMOD international conference on Management of Data, San Diego, California: ACM, pp. 337-348, 2003.
[3] L. Bing, G. Robert, and Z. Yanhong, "Mining data records in web pages," in Proceedings of the ninth ACM SIGKDD international conference on Knowledge Discovery and Data Mining, Washington, D.C.: ACM, pp. 601-606, 2003.
[4] D. Cai, S. Yu, J. R. Wen, and W. Y. Ma, "VIPS: a visionbased page segmentation algorithm," Microsoft Technical Report, MSR-TR-2003-79, 2003.
[5] Chia-Hui C. and Shao-Chen L., "IEPAD: information extraction based on pattern discovery," in Proceedings of the 10th international conference on World Wide Web, Hong Kong, Hong Kong: ACM, pp. 681-688, 2001.
[6] V. Crescenzi, G. Mecca, and P. Merialdo, "RoadRunner: towards automatic data extraction from large web sites," in Proceedings of the 2001 international conference on Very Large Data Base (VLDB), pp. 109-118, 2001.
[7] P. S. Hiremath, S. S. Benchalli, and S. P. Algur, "Mining data regions from web pages," in Conference on Optoelectronic and Microelectronic Materials and Devices(COMMAD), India, December 20-22, 2005.
[8] C. N. Hsu and M. T. Dung, "Generating finite-state transducers for semi-structured data extraction from the web," Information Systems, vol. 23, pp. 521-538, 1998.
[9] W. Jiying and H. L. Fred, "Data extraction and label assignment for web databases," in Proceedings of the 12th international conference on World Wide Web, Budapest, Hungary: ACM, pp. 187-196, 2003.
[10] S. Kai and L. Georg, "ViPER: augmenting automatic information extraction with visual perceptions," in Proceedings of the 14th ACM international conference on Information and Knowledge Management, Bremen, Germany: ACM, pp. 381-388, 2005.
[11] W. Liu, X. Meng, and W. Meng, "Vision-based web data records extraction," in International Workshop on Web and Databases, pp. 14-19, 2006.
[12] W. Liu, X. Meng, and W. Meng, "ViDE: a vision-based approach for deep web data extraction," IEEE Transactions on Knowledge and Data Engineering, vol. 22, pp. 447-460, 2009.
[13] I. Muslea, S. Minton, and C. Knoblock, "Stalker: learning extraction rules for semistructured, web-based information sources," in Proceedings of AAAI Workshop on AI and Information Integration, pp. 74–81, 1998.

論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2016-07-04公開。
  • 同意授權瀏覽/列印電子全文服務,於2016-07-04起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信