§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1203201218285400
DOI 10.6846/TKU.2012.00427
論文名稱(中文) 深層網路查詢介面之綱要擷取研究
論文名稱(英文) A Study of Schema Extraction for Deep Web Search Interfaces
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 100
學期 1
出版年 101
研究生(中文) 鄭又誠
研究生(英文) Yu-Cheng Cheng
學號 698631420
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2012-01-04
論文頁數 74頁
口試委員 指導教授 - 周清江
委員 - 戴敏育
委員 - 陸承志
委員 - 周清江
關鍵字(中) 深層網路
綱要擷取
經驗法則
關鍵字(英) Deep Web
Schema Extraction
第三語言關鍵字
學科別分類
中文摘要
隨著網際網路快速普及,網路資料庫的內容持續快速增加,這些內容被隱藏在查詢介面之後,一般稱為深層網路(簡稱深網)。由於網路使用者必須於深網查詢介面輸入適當的參數,才能瀏覽符合參數條件的動態內容,因此這些內容不被搜尋引擎收錄,常導致網路使用者錯失重要資訊。而在建立自動擷取深網內容的系統之前,必須先有一個擷取其查詢介面綱要的系統,以了解查詢介面中輸入元素與標籤的對應關係、元素可填值的資料型態、元素可填值的範圍限制等等,才能更進一步對這些元素填值,以擷取內容。本研究即在建立上述深網查詢介面綱要擷取系統,我們以He等人所提出之基於排版表示式的表單擷取方法,找出查詢介面中的元素、標籤以及換列符號,以產生其介面表示式(Interface Expression, IEXP),再結合使用者觀點以及設計者觀點的角度,利用ICQ資料集為基礎,以經驗法則剖析IEXP,以擷取出其綱要。我們解決了視覺上元素和其對應標籤彼此距離接近但卻不為對應的缺點,並保留元素和其對應標籤不會相離太遠的概念。我們所提出之綱要分層表達方式,不但有助擷取深網內容,預期也將有利於後續綱要匹配以及綱要合併的效能。我們最後以TEL-8資料集以及過去研究所收集的查詢介面來檢驗其輸入元素與標籤的對應關係是否正確,實驗結果顯示本研究可得到很好的效能。
英文摘要
Along with the fast popularity of the internet, the contents inside web databases also increase quickly. These data, hidden behind the query interfaces, are called Deep Web. In order to obtain the dynamic contents which satisfy the conditions imposed by the input parameters, the internet users must keyin proper parameters. This is the reason why the above contents are not collected by the search engines, which cause the internet users lose important information easily. However, before building a system which could collect the contents of Deep Web automatically, a system for extracting schemas of query interfaces must be established first to obtain mappings of input elements and labels, data types of legitimate input values, and range constraints of the input values, etc. Then it is possible to automatically input proper values for elements in the query interfaces to extract the dynamic contents. We would like to build a schema extraction system for query interfaces of the deep web. Based on the layout expressions for form extraction proposed by He, we extract elements, labels and new lines of query interfaces to produce their IEXP, Interface Expression. Besides, we combine the users' view and the designers' view, and use ICQ dataset as the foundation to propose the heuristic rules for extracting the schema. We solve the problem that visional elements and their mapping labels are close but not mapped correctly, without abandoning the concept that elements and their mapping labels should not be separated far away. The proposed layered model for schema not only helps extracting contents of the Deep Web, but also benefits the processes of schema matching and schema merge. We examine the performance of the schema extraction system by the TEL-8 dataset and query interfaces gathered by the past research. The result reveals that our system produces effective results.
第三語言摘要
論文目次
目錄
第一章 緒論	1
1.1	研究背景	1
1.2	研究動機	4
1.3	研究目的	5
1.4	研究範圍與限制	5
第二章 文獻探討	7
2.1	綱要的定義	7
2.2	綱要擷取相關做法	8
2.2.1	設計者觀點	9
2.2.2	使用者觀點	11
第三章 背景介紹	16
3.1	搜尋引擎	16
3.2	深層網路	16
3.3	深網相關議題	18
3.4	HTML表單簡介	21
第四章 綱要模型	23
4.1	配對的定義	23
4.1.1	基本配對的定義	24
4.1.2	進階配對的定義	24
4.2	綱要的定義	29
4.2.1	基本綱要的定義	30
4.2.2	進階綱要的定義	31
4.3	值域的定義	31
第五章 綱要擷取系統設計與實作	32
5.1	表單擷取與簡化	34
5.2	擷取元素(element)	38
5.3	擷取標籤(label)	41
5.4	擷取換列符號	44
5.5	產生IEXP	45
5.6	找出綱要	46
5.7	產生值域	53
5.8	系統實作	54
第六章 實驗設計與討論	56
6.1	實驗環境	56
6.2	前置工作	56
6.3	實驗目標	57
6.4	實驗結果	58
6.5	綱要判斷失誤分析	61
6.5.1.	失誤例子	61
6.5.2.	失誤原因	65
6.6	實驗結論	66
第七章 結論與未來展望	69
參考文獻	71

圖目錄
圖1: 一個深網查詢介面表單的例子	3
圖2: 表單元素的空間特徵	12
圖3: 分段後的查詢介面	13
圖4: 左邊為查詢介面Q的例子,右邊為Q的元素區塊	14
圖5: 一個元素和標籤距離近但卻不為對應的例子	15
圖6: 深層網路來源的存取	19
圖7: 深網查詢介面表單範例	22
圖8: 圖7查詢結果的回傳頁面範例	22
圖9: 標籤對應簡單型多元素的例子	25
圖10: 標籤對應群組型多元素的例子	25
圖11: 標籤對應範圍型基本配對集(Range Type)的例子	26
圖12: 標籤對應部分型基本配對集(Part Type)的例子	26
圖13: 無標籤對應之元素的例子	27
圖14: 圖11的進階配對樹狀結構	28
圖15: 兩個不同的表單中,類型不同但意義相同的配對	29
圖16: 在未分層下,不同表單中個數不同但代表相同意義之配對	29
圖17: 綱要擷取系統之流程圖	33
圖18: 一個查詢表單的範例	36
圖19: 圖18的表單簡化後的結果	37
圖20: 包含各種元素之表單範例	38
圖21: 左邊為格式化前的表單內容,右邊為群組型態格式化後的表單內容	41
圖22: IEXP擷取次序的示意圖	45
圖23: 四種元素和標籤在視覺上相對應的產生情況	46
圖24: 綱要經驗法則執行流程圖	48
圖25: 元素和標籤對應之規則一示意圖	50
圖26: 標籤對應基本配對集之示意圖	51
圖27: 單選取方塊的標籤,被誤判成單選取方塊的值	62
圖28: 具有表格的表單,造成配對判定錯誤	62
圖29: 標籤誤判導致對應錯誤之例子	63
圖30: 和經驗法則不相符之例子	63
圖31: 配對複雜造成對應錯誤之例子	64
圖32: 進階配對誤判為多個基本配對之例子	64
圖33: 標籤T1為誤判標籤的情形	65

表目錄
表1: 實驗環境	56
表2: 圖1表單在本系統輸出之綱要的展現方式	58
表3: TP、FP、FN之關係表	59
表4: 測試門檻值之R值設定對標籤擷取的影響	59
表5: ICQ資料集中的60個表單之實驗數據	60
表6: TEL-8資料集中的215個表單之實驗數據	60
表7: 網際網路收集的150個表單之實驗數據	60
表8: 各資料集進階配對各子類型之實驗數據	61
表9: 本研究與相關研究處理項目比較表	67
參考文獻
[1] 孟小峰, 孟衛一 (2007). Deep Web數據集成研究綜述. 計算機學報, 30(9), pp. 1475-1489.
[2]張珮慈 (2011). 一個識別特定主題深網查詢介面的分類器, 淡江大學資訊管理系, 碩士論文.
[3]Barbosa, L., and Freire, J. (2007). Combining classifiers to identify online databases. Proceedings of the 16th International Conference on World Wide Web, pp. 431-440.
[4]Bergholz, A., and Chidlovskii, B. (2003). Crawling for domain-specific hidden web resources. Proceedings of the 4th International Conference on Web Information Systems Engineering (WISE), pp. 125-133.
[5]Bergman, M. K. (2001). The deep web: surfacing hidden value. Technical report, BrightPlanet LLC.
[6]Chang, K. C., He, B., Li, C., Patel, M., and Zhang, Z. (2004). Structured databases on the web: observations and implications. SIGMOD Record, 33(3), pp. 61–70.
[7] Cope, J., Craswell, N., and Hawking, D. (2003). Automated discovery of search interfaces on the web. Proceedings of the 14th Australasian Database Conference, pp. 181-189.
[8] Dragut, E., C., Kabisch, T., Yu, C., and Leser, U. (2009). A Hierarchical Approach to Model Web Query Interfaces for Web Source Integration. Proceedings of the 35th International Conference on Very Large Data Bases, pp. 325 - 335.
[9] Fetter, D., Manasse, M., Najork, M., and Wiener, J. L. (2003). A large scale study of the evolution of web pages. Proceedings of the 12th International Conference on World Wide Web, pp. 669-678.
[10] Gil, P. (2011). What Is the 'Invisible Web'? The Content That Goes Beyond Google, Yahoo, Bing, and Ask.com.  (http://netforbeginners.about.com/cs/secondaryweb1/a/secondaryweb.htm)
[11]Halevy, A. Y. (2005). Why your data won't mix. ACM Queue, 3(8), pp. 50-58.
[12]He, B., Patel, M., Zhang, Z., and Chang, K. C. (2007). Accessing the Deep Web: A survey. Communications of the ACM, 50(5), pp. 95–101.
[13]He, H., Meng, W., Lu, Y., Yu, C., and Wu, Z. (2007). Towards deeper understanding of the search interfaces of the deep web. World Wide Web, 10(2), pp. 133-155.
[14] He, H., Meng, W., Yu, C., and Wu, Z. (2005). Constructing interface schemas for search interfaces of web databases. Proceedings of the 6th International Conference on Web Information Systems 	Engineering, pp. 29-42.
[15] He, H., Meng, W., Yu, C., and Wu, Z. (2004). Automatic Integration of Web Search Interfaces with WISE-Integrator. Proceedings of the Conference on Very Large Data Bases, 13(3), pp. 256–273.
[16]Horowitz, E., and Ru, Y. (2005). Indexing the invisible web: a survey. Online Information Review, 29(3), pp. 249-265.
[17]Khare, R., An, Y., and Song, I. Y. (2010). Understanding deep web search interfaces: a survey. SIGMOD Record, 39(1), pp. 33-40.
[18] Khare, R., and An, Y. (2009). An Empirical Study On Using Hidden Markov Model for Search Interface Segmentation. Proceedings of the 18th International Conference on Information and Knowledge Management, pp. 17 -26.
[19] Lawrence, S., and Giles, C. L. (1998). Searching the World Wide Web, Science, 280(98), pp. 98-100.
[20] Lawrence, S., and Giles, C. (1999). Accessibility of information on the Web. Nature, 400, pp. 107–109.
[21] Levy, A. Y., Rajaraman, A., Ordille, J. J. (1996). Querying Heterogeneous Information Sources Using Source Descriptions.  Proceedings of the Conference on Very Large Data Bases, pp. 251-262.
[22]Madhavan, J. Afanasiev, L., Antova, L., and Halevy, A. (2009). Harnessing the Deep Web: Present and Future, Proceedings of the 4th Biennial Conference on Innovative Data Systems Research.
[23]Miller, R. J., Ioannidis, Y. E., and Ramakrishnan, R. (1994). Schema Equivalence in Heterogeneous System: Bridging Theory and Practice. Information Systems, 19(1), pp. 3–31.
[24]Naz, T. (2006). An XML Schema Generator for HTML Search Interfaces. Technical Report, Institute Faculty of Informatics.
[25]Nguyen, H., Nguyen, T., and Freire, J. (2008). Learning to extract form labels. Proceedings of the Very Large Data Bases Endowment, 1(1), pp. 684-694.
[26] Price, G., Sherman, C., and Sullivan, D. (2001). The Invisible Web: Uncovering Information Sources Search Engines Can't See. Library Trends, 52(2), pp. 282-298.
[27] Raghavan, S., and Garcia-Molina, H. (2001). Crawling the hidden web. Proceedings of 27th International Conference on Very Large 	Data Bases, pp. 129-138.
[28] Ritu, K., and Yuan, A. (2009). An Empirical Study on Using Hidden Markov Model for Search Interface Segmentation. In Proceedings of the 18th International Conference on Information and Knowledge Management, 2(6), pp. 17-26.
[29] Wu, W. (2006). Integrating Deep Web Data Sources. Department of Computer Science, Ph.D. thesis . University of Illinois at Urbana-Champaign.
[30] Zheng, S. L., Han, J. H., Cheng, W. J. and Wu, Y. Z. (2009). Automated Discovery of Deep Web Search Interface. Journal of Zhengzhou University, 41(1), pp. 56-63.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信