§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1202201011251900
DOI 10.6846/TKU.2010.00341
論文名稱(中文) 植基於網頁結構的資料區塊化自動分類
論文名稱(英文) Automatic Identification of Data Blocks based on Web Page Structure
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士在職專班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 98
學期 1
出版年 99
研究生(中文) 廖益辰
研究生(英文) Yi-Chen Liso
學號 796410255
學位類別 碩士
語言別 繁體中文
第二語言別 英文
口試日期 2010-01-15
論文頁數 55頁
口試委員 指導教授 - 蔡憶佳
委員 - 顏淑惠
委員 - 林政錦
委員 - 蔡憶佳
關鍵字(中) 網頁結構
關鍵字(英) web page structure
第三語言關鍵字
學科別分類
中文摘要
網際網路發展至今的普及化,再加上使用者瀏覽行為的改變,許多資料內容的取得已漸漸地從紙本轉移至網際網路上,如:新聞網站資訊的提供就是一例。然而,隨著網際網路資訊量愈來愈多,使得自動化資料收集的機制成為一個不可或缺的重要工具。
目前一般資料收集的方法,除了網站有提供Really Simple Syndication(RSS)機制可供用戶訂閱之外,其餘便是以特定程式分析網頁結構的方法取得網頁資料,但若當網頁視覺結構改變時,那麼分析網頁程式便得重新改變。因此,本篇論文希望提出一個可自動化分析網頁結構的方法,經由分析網頁結構,找出網頁結構樣式,並加以驗證後,使得該網頁結構樣式成為分析規則。
本文利用其分析規則,對實驗目的網站每一個小時擷取一次資料,並且比對資料更新的新聞項目,經驗證後本論文所提出的方法確實能自動化地分析網頁結構,並達到資料收集的目的。
英文摘要
The internet has been a major source of information. It has taken the place of paper and become the most popular medium, such as: News web sites.  Therefore, developing an automatic data collection technology is very important.
At present the Really Simple Syndication (RSS) is a general of data collection method for the users. Besides, it is use the specific program analysis web page structures to obtain the web page information. When the web page changed, the program must be rewritten. Therefore, this paper provides an automated analysis web page structure method. Using this method find the web page pattern and approved it can be the rule. It has been tested in automatic collection of web page data.
第三語言摘要
論文目次
1	緒論	1
1.1	研究背景	1
1.2	研究動機	2
1.3	研究目標	4
1.4	論文架構	7
2	相關研究與討論	8
2.1	利用標籤<Tag>特性切割網頁的方法	13
2.2	適用於小型瀏覽器上的網頁改寫方法	14
2.3	利用比較二網頁找出資料區域	15
2.4	單一網頁擷取	16
3	研究方法	17
3.1	網頁雜訊去除	22
3.2	網頁資料的比對	24
3.3	廣告區塊的判別	26
3.4	擷取規則樣式的建立	28
4	研究架構與實作說明	30
4.1	開發與實驗環境	30
4.2	實驗內容	30
4.3	研究結果	32
4.3.1	標籤樣式規則擷取結果	32
4.3.2	網頁區塊資料擷取結果	36
5	結論與未來展望	40
5.1	結論	40
5.2	未來展望	41
參考文獻	42
<附錄1> 各網頁擷取資料結果	43
<附錄2> 英文論文	48


圖目錄
圖 1網頁套版程式流程	2
圖 2網頁內容主頁以條列式呈現標題	5
圖 3檢視網頁內容原始碼	5
圖 4新聞資料內容的網頁	6
圖 5HTML標籤文件原始碼	10
圖 6HTML文件樹的表示圖	10
圖 7將HTML樹狀圖以元素階層表示	11
圖 8依其Rule特性網頁可被區分成數個區塊	14
圖 9適用於小型瀏覽器上的網頁	15
圖 10利用比較二網頁找出資料區域	16
圖 11單一網頁擷取法 Before (A)	17
圖 12網頁監看系統架構圖	18
圖 13分析模組流程圖	19
圖 14DOM中屬於葉子節點(leaf node)的部份	20
圖 15擷取網頁中屬於標籤a的結果	23
圖 16利用兩時間點的網頁比對出資料有變動區塊	24
圖 17將同性質的標籤屬性做同質分類	27
圖 18標籤屬性的分類1	27
圖 19標籤屬性的分類2	28
圖 20標籤規則樣式	29


表目錄
表 1Different rules for different DOM nodes	13
表 2比對兩時間點網頁後的結果(資料有變動的區塊)	25
表 3比對兩時間點網頁後的結果(資料沒變動的區塊)	26
表 4實驗網址列表	31
表 5二個時間點的新聞標題	37
表 6更新的新聞標題	38
表 7keyBuy 擷取結果	39
參考文獻
[1] Li Qingcheng and Li Youmeng, Extracting Content from Web Pages Based on RSS. 2008 International Conference on Computer Science and Software Engineering, WWW2008, pp. 218-221, Wuhan, Hubei, Dec 12-14, 2008
[2] http://zh.wikipedia.org/zh-hant/RSS
[3] http://zh.wikipedia.org/zh-tw/Atom
[4] S. Yu, D. Cai, J.-R. Wen, and W.-Y. Ma. Improving pseudo-relevance feedback in web information retrieval using web page segmentation. In Proceedings of the Twelfth International World Wide Web Conference, WWW2003, pp. 11-18, Budapest, Hungary, May 20-24, 2003.
[5] Y. Chen, W.-Y. Ma, and H.-J. Zhang. Detecting web pages structure for adpative viewing on small form factor devices. In Proceedings of the Twelfth International World Wide Web Conference, WWW2003, pp. 225-266, Budapest, Hungary, May 20-24, 2003.
[6] Z. Bar-Yossef and S. Rajagopalan. Template detection via data mining and its applications. In Proceedings of the Eleventh International World Wide Web Conference, WWW2002, pp. 580-591, Honolulu, Hawaii, USA, May 7-11, 2002.
[7] S. Gupta, G. Kaiser, D. Neistadt, and P. Grimm. DOM-based content extraction of HTML documents. In Proceedings of the Twelfth International World Wide Web Conference, WWW2003, pp. 207-214, Budapest, Hungary, May 20-24, 2003.
論文全文使用權限
校內
紙本論文於授權書繳交後5年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後3年公開
校外
同意授權
校外電子論文於授權書繳交後3年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信