§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1006201113232900
DOI 10.6846/TKU.2011.00320
論文名稱(中文) 一個自動化網頁資料表格結構辨識系統
論文名稱(英文) An Automatic Web Data Table Structure Recognition System
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 99
學期 2
出版年 100
研究生(中文) 陳雅伶
研究生(英文) Ya-Ling Chen
學號 697630803
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2011-05-28
論文頁數 71頁
口試委員 指導教授 - 周清江
委員 - 林至中
委員 - 戚玉樑
關鍵字(中) 表格結構
資訊擷取
表格探勘
關鍵字(英) Table Structure
Web mining
Information Extraction
第三語言關鍵字
學科別分類
中文摘要
為了從網頁表格中擷取出重要的資訊,過去的研究已提出許多
不錯的表格結構辨識方法,但在複雜的表格結構中,往往因為儲存格相似性的比對不足或相關表格資料不足,造成表格結構辨識準確率降低。本文設計並實作一個自動化網頁資料表格結構辨識系統,經由經驗法則分析表格結構特徵(TSF, Table Structure Feature)和儲存格內容型態(CT, Cell Type),先將表格分類至九種不同的表格類型,分類後的表格再使用儲存格內容型態值個別區分屬性名稱和屬性值,複雜表格也增加了經驗法則與2x2表格的常見的屬性名稱輔助辨識,使各種領域的表格皆可正確的進行分析,且為了不浪費記憶體的空間以及可簡單又清楚的找到每一筆資料的紀錄,本研究將區分出的屬性名稱和屬性值轉換為關聯式資料表格式呈現。最後我們透過比對人工建立的驗證資料,證實本系統確實能有效改善網頁表格結構辨識準確率,最後進一步分析辨識錯誤的表格,找出原因及提出後續處理對策。
英文摘要
Many techniques have been proposed to extract important information in web tables. Many of these information extraction techniques are successful for simple tables. However, their applications to complex tables usually obtain unsatisfactory accuracy, due to inadequate similarity comparison among table cells and insufficient table information collection. We design and implement an automatic web data table structure recognition system to tackle this problem. This system would first classify web data tables into nine table categories by analyzing TSF (Table Structure Feature) and CT (Cell Type) through heuristics. After the classification phase, each cell is identified as table attributes or table values by analyzing table structures in each category.  For complex tables, we use heuristics and common attribute name recognition in 2x2 tables to recognize table structures.  Furthermore, table attributes and table values are presented as relational tables to save memory space and to identify each record clearly.  We not only test the effectiveness of our system, but also analyze why some table structures are wrongly recognized. The reasons are identified and future developments to handle these cases are suggested.
第三語言摘要
論文目次
目錄     III
圖目錄   VI
表目錄   IX

第一章	緒論	1
1.1.	研究背景與動機	1
1.2.	研究目的	3
1.3.	論文架構	4
第二章	文獻探討	5
2.1.	網頁表格相關定義	5
2.1.1.	表格形式	5
2.1.2.	屬性欄位名稱與屬性值	6
2.1.3.	表格類型	9
2.2.	表格結構辨識	14
2.2.1.	表格類型分類	14
2.2.2.	表格結構辨識方法	15
2.3.	綜合比較	17
第三章	系統架構	19
3.1.	表格結構辨識系統	19
3.2.	系統架構流程	21
3.3.	表格正規化	22
3.4.	表格類型分類	23
3.4.1.	表格類型	23
3.4.2.	使用儲存格內容型態分類表格類型	29
3.4.3.	一維無跨欄跨列表格 v.s 二維無跨欄跨列表格	30
3.4.4.	跨欄跨列表格	33
3.4.5.	複雜表格	35
3.5.	表格結構辨識	36
3.5.1.	一維表格導向偵測與屬性辨識	36
3.5.2.	二維表格屬性辨識	42
3.5.3.	複雜表格屬性辨識	44
3.6.	表格解釋	50
第四章	系統實作	52
4.1	表格結構辨識前處理	52
4.2	實作流程	52
第五章	實驗與比較	57
5.1	資料集	57
5.2	表格類型分類	58
5.2.1	效能評估	58
5.3	表格結構辨識	60
5.3.1	效能評估	60
5.3.2	比較相關研究分析結果	64
5.4	討論	64
第六章	結論與未來發展	67
6.1	結論	67
6.2	未來發展	67
參考文獻	69

圖目錄

圖2-1. 列-欄結構的表格形式	6
圖2-2. 三個種類的表格	7
圖2-3. 圖2-2的樹狀結構表示	8
圖2-4. 表格類型	10
圖2-5. 基於列的單一屬性對應單值表格	12
圖2-6. 基於列的單一屬性對應多值表格	12
圖2-7. 基於欄的單一屬性對應單值表格	13
圖2-8. 基於欄的單一屬性對應多值表格	13
圖2-9. 混合表格	13
圖2-10. 基於列的單一屬性對應單值樣式地圖	15
圖3-1. 表格結構辨識系統流程	20
圖3-2. 表格結構辨識系統架構及流程	21
圖3-3. 表格正規化	23
圖3-4. 一維以欄為主矩陣型表格類型	25
圖3-5.  一維以列為主矩陣型表格類型	25
圖3-6. 一維以欄為主跨欄跨列表格類型	25
圖3-7. 一維以列為主跨欄跨列表格類型	26
圖3-8. 二維矩陣型表格類型	26
圖3-9. 二維跨欄跨列表格類型	27
圖3-10. 多張不同類型表格範例	27
圖3-11. 多張同類型表格範例	28
圖3-12. 分割型表格範例	29
圖3-13. 矩陣型表格比較	31
圖3-14. 跨欄跨列表格比較	33
圖3-15. 表格相依關係	36
圖3-16. 表格展開方向	37
圖3-17. 一維以列為主表格	39
圖3-18. 一維以欄為主表格	40
圖3-19. 一維以列為主跨欄跨列表格	41
圖3-20. 一維以欄為主跨欄跨列表格	42
圖3-21. 二維矩陣型表格	43
圖3-22. 二維跨欄跨列表格	44
圖3-23. 轉換後的多張不同類型表格	47
圖3-24. 圖3-11轉換成儲存格內容型態	48
圖3-25. 圖3-12轉換成儲存格內容型態	49
圖3-26. 經過表格解釋的關聯式資料表	51
圖4-1. 表格存成二維矩陣	53
圖4-2. 表格存成二維陣列示意圖	53
圖4-3. 表格分類成九大類型	54
圖4-4. 表格區分為屬性名稱和屬性值	55
圖4-5. 表格轉成關聯式資料表格式	56
圖5-1. 全字串類型表格	59
圖5-2. 二維屬性值跨欄表格	60
圖5-3. 一維以欄為主跨欄跨列表格辨識錯誤範例	63
圖5-4. 分割型表格辨識錯誤的範例	63

表目錄
表3-1 儲存格內容型態	29
表3-2 常見屬性名稱	45
表4-1 系統相關模組與類別方法名稱	52
表5-1 表格類型分類實驗結果	59
表5-2 表格結構辨識實驗結果	62
表5-3 相關研究表格結構辨識實驗結果	64
表5-4 網頁表格分類與結構辨識相關研究和本研究比較	66
參考文獻
參考文獻
[1]	張琬菁,《網頁表格結構辨識與解釋》,碩士論文,國立中正大學資訊工程研究所,2009。
[2]	蔡字維,《基於表格分類之行動裝置網頁內容調適》,碩士論文,淡江大學資訊管理研究所,2009。
[3]	蔡錦和,《表格資料探勘在其問答系統之應用》,碩士論文,國立台灣大學資訊工程研究所,2001。
[4]	簡志遠,《使用邏輯結構描述演算法於超文件表格自動化理解系統》,碩士論文,國立台灣科技大學資訊工程研究所,2005。
[5]	Cafarella, M., Halevy, A., Wang, D., Wu, E., and Zhang, Y., “Webtables: Exploring the power of tables on the web,” In Proceedings of the 34th International Conference on Very Large Data Bases , pp. 538–549, 2008.

[6]	Cafarella, M., Khoussainova, N., Wang, D., Wu, E., Zhang, Y., and Halevy, A., “Uncovering the relational web,” In Proceedings of the 11th International Workshop on Web and Databases, Vancouver, Canada, 2008.

[7]	Chen, H., Tsai, S., and Tsai, J., “Mining tables from large scale html texts,” In 17th International Conference on Computational Linguistics, pp. 166–172, 2000.

[8]	Gatterbauer, W., and Bohunsky, P., “Table extraction using spatial reasoning on the CSS2 visual box model,” In Proceedings of the 21st National Conference on Artificial Intelligence, pp. 1313-1318, Poston, Massachusetts, July 2006.

[9]	Hurst, M., “Towards a Theory of Tables,” International Journal on Document Analysis and Recognition, vol. 8, no. 2, pp. 123–131, 2006.

[10]	Hurst, M., “Layout and language: Challenges for table understanding on the web,” In Proceedings of the First International Workshop on Web Document Analysis, pp. 27–30, 2001.

[11]	Hurst, M., Embley, D.W., Lopresti, D.P., and Nagy, G., “Table-processing paradigms: A research survey, ” International Journal of Document Analysis and Recognition, vol. 8, no. 2–3, pp. 66–86, 2006.

[12]	Kim, Y., Lee, K., “Extracting logical structures from HTML tables,” Computer Standards & Interfaces, vol. 30, pp. 296-308, 2008.

[13]	Pivk, A., Cimiano, P., Sure, Y., Gams, M., Rajkoviˇc, V., and Studer, R., “Transforming arbitrary tables into logical form with TARTAR,” Data & Knowledge Engineering, vol. 60, no. 3, pp. 567–595, 2007.

[14]	Sarawagi, S., “Information extraction,” Foundations and Trends in Information Retrieval, vol. 2, no. 1, pp. 261-377, 2008.

[15]	Watanabe, T., Quo, Q.L., Sugie, N., “Layout recognition of multi-kinds of table-form documents,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 17, no. 4, pp. 432–445, 1995.

[16]	Wang, H.L., Wu, S.H., Wang, I.C., Sung, C.L., Hsu, W.L., and Shih, W.K., “Semantic Search on Internet Tabular Information Extraction for Answering Queries,” In Proceedings of the 9th International Conference on Information and Knowledge Management, pp. 243–249, Washington DC, 2000.

[17]	Wang, X., Tabular Abstraction, Editing and Formatting, Doctor of Philosophy thesis, Department of Computer Science, University of Waterloo, Waterloo, Ontario, Canada, 1996.

[18]	Wang, X., and Wood, D., “An Abstract Model for Tables,” In Proceedings of the 1993 TUG Meeting, vol. 14, no. 3, pp. 231-237, Birmingham, England, July 26-30, 1993.

[19]	Wang, Y., and Hu, J., “A Machine Learning Based Approach for Table Detection on the Web,” In Proceedings of 11th International World Wide Web Conference, pp. 242-250, 2002.

[20]	Yang, Y., and Luk, W.S., “A framework for web table mining,” In Proceedings of the 4th International Workshop on Web Information and Data Management, pp. 36–42, Virginia, USA, 2002.

[21]	Yang, Y., Web Table Mining and Database Discovery, Master of Science thesis, Department of Science, Simon Fraser University, August, 2002.

[22]	Zanibbi, R., Blostein, D., and Cordy, J., “A survey of table recognition: Models, observations, transformations, and inferences,” International Journal of Document Analysis and Recognition, vol. 7, no. 1, pp. 1-16, 2004.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後5年公開
校外
同意授權
校外電子論文於授權書繳交後5年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信