§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2402201415544900
DOI 10.6846/TKU.2014.00946
論文名稱(中文) 基於漸進式匹配與合併之深網查詢介面整合-以書籍領域為例
論文名稱(英文) Integrating Deep Web Query Interfaces Based on Incremental Matching and Merging-Using Book Domain as an Example
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 102
學期 1
出版年 103
研究生(中文) 蕭子竣
研究生(英文) Tzu-Chun Hsiao
學號 600631013
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2014-01-13
論文頁數 57頁
口試委員 指導教授 - 周清江
委員 - 蕭瑞祥
委員 - 翁頌舜
關鍵字(中) 深層網路
綱要匹配
綱要合併
整合型介面
關鍵字(英) Deep Web
Schema Matching
Schema Merging
Integrated Search Interface
第三語言關鍵字
學科別分類
中文摘要
相較於能被搜尋引擎索引的表層網路資料,深層網路(簡稱深網)所蘊含的龐大、高品質資料逐漸受到重視,能提供更多有用的資訊。但深網的資料藏於網站背後的資料庫中,使用者想要取得這些資料,必須經由網站開發者所提供的深網查詢介面,輸入正確的查詢詞並提交表單,才能得到結果。為了取得滿意的深網結果,使用者通常要在多個查詢介面交叉反覆查詢,有時還需要手動整合查詢結果。在此過程中,因為需要造訪設計理念不同之多個網站,依各查詢介面之輸入要求,反覆輸入調整過之查詢詞,導致查詢成本大幅提升。因此,整合各深網查詢介面成單一查詢介面有其必要性。本研究為建立整合型深層網路查詢介面及考量後續加入新查詢介面的擴充性,提出一個漸進式介面綱要匹配及合併架構。過去研究提出的匹配方式,大都採用先輸入所有綱要,再利用統計資訊進行匹配。我們的架構,能夠彈性的加入新的綱要進行匹配與合併。本研究的綱要匹配是基於標籤字串相似度及標籤字串同義字之雙層匹配方法;在產生整合型查詢介面部分,考慮到使用者使用上的便利性,本研究以儘量維持原介面之排序方式及易於輸入為產生整合型深網查詢介面的準則。我們從開放式目錄dmoz.org上蒐集書籍領域中9個深層網路查詢介面,作為我們進行整合的測試對象,其中包含如Amazon、eBay等熱門網站,並於此整合介面進行查詢,以測試其可行性與效能。
英文摘要
Data hidden inside the deep web are of much higher quality than those in the surface web. When internet users would like to obtain deep web data, they must fulfill query conditions in the HTML query interface and click the submit button. Unfortunately, deep web data from one site normally is not sufficient for users. They usually need to integrate information from different deep web sites. Thus, they have to enter duplicate queries in different query interfaces. It also takes lots of time to perform manual integration of those query results. Thus, an integrated deep web query interface is needed to alleviate the burdens. However, web developers design the query conditions with miscellaneous expressions. It is difficult to match attributes among several query interfaces. To easily extend the integrated query interface in the future, we design and develop an incremental matching and merging methodology for interface schema integration. Our matching method is based on the string similarity and synonyms for labels. After schema matching and merging, our system automatically constructs an integrated query interface to query several deep web sites at the same time. In our integrated search interface, we consider how to provide convenient user interfaces for the users. To test our methodology, we integrate nine search interfaces in the books domain from the open directory dmoz.org, including Amazon, eBay and other popular sites. We also conduct query experiments using our integrated query interface for checking feasibility and performance of the methodology.
第三語言摘要
論文目次
目錄
第一章	緒論	1
1.1研究背景	1
1.2研究動機	3
1.3研究目的	4
1.4研究範圍與限制	4
1.5章節介紹	5
第二章	文獻探討	6
2.1綱要擷取研究	6
2.2綱要匹配相關研究	8
2.3綱要合併相關研究	13
2.4相關文獻總結	14
第三章	綱要擷取	15
3.1綱要的定義	15
3.2綱要擷取	16
3.3表單提交之前的資訊需求	17
第四章	基於漸進式匹配與合併之深網查詢介面整合	19
4.1綱要資料處理	20
4.1.1綱要資料集	20
4.1.2標籤文字處理	21
4.1.3資料物件導向化處理	22
4.2匹配	25
4.2.1標籤匹配-雙層字串匹配器	26
4.2.2值域匹配器	30
4.3綱要合併	30
4.4查詢介面產生器	32
4.5查詢詞分派器	37
4.6系統實作討論	41
第五章	實驗與討論	44
5.1實驗環境	44
5.2實驗說明與實驗結果	46
5.2.1實驗一、檢驗特性匹配的正確性	46
5.2.2實驗二、整合介面查詢與個別網站查詢的整體時間差異	48
5.3實驗結論	50
第六章	結論與未來展望	53
參考文獻	55
 
圖目錄
圖 1:深層網路查詢介面範例	2
圖 2:表單元素的空間特徵圖	7
圖 3:左圖為查詢介面範例,右圖為其元素區塊表示結果範例	8
圖 4:表示兩不同綱要上特性匹配的範例	8
圖 5:查詢介面範例	9
圖 6:查詢結果頁面範例	9
圖 7:資料庫綱要比對概念圖(Concept Graph)	12
圖 8:四種元素型態的範例	15
圖 9:標籤對應基本特性集例子	16
圖 10:無標籤特性例子	16
圖 11:表單綱要範例	18
圖 12:系統流程圖	19
圖 13: Burp Suite 擷取封包內容範例	21
圖 14:資料物件類別圖	22
圖 15:匹配鏈結串列範例	25
圖 16:雙層字串匹配器流程圖	26
圖 17:編輯距離矩陣範例	28
圖 18:確認匹配的使用者介面範例	29
圖 19:漸進式匹配與合併流程圖	32
圖 20:匹配特性之元素型態挑選範例	33
圖 21:整合型深層網路查詢介面範例	35
圖 22:值域排序範例	37
圖 23:提交表單架構圖	40
圖 24:原始網站的查詢結果呈現範例	41
圖 25:本研究的查詢結果呈現範例	41
圖 26:實驗題目	49

 
表目錄
表1:實驗環境	44
表2:欲整合介面資料表	45
表3:欲整合網站使用狀況統計表	45
表4:欲整合綱要之特性數量統計表	46
表5:特性匹配結果表	46
表6:查詢時間比較表	49
表7:相關研究的匹配方法比較表	51
表8:相關研究的合併方法比較表	51
參考文獻
[1]	張珮慈. (2011). 一個識別特定主題深網查詢介面的分類器. 淡江大學資訊管理學系碩士班學位論文. 
[2]	曹慶皇,鞠時光,楊曉琴.(2009).基於關聯挖掘和語義聚類的Deep Web的複雜匹配方法.計算機應用研究,26(12),pp.4613-4616。
[3]	董永權,李慶忠,丁艷輝,張永新.(2011).基於證據理論和任務分配的Deep Web 查詢接口匹配方法. 模式識別與人工智能, 24(2) ,pp.262-271.
[4]	鄭又誠.(2011).深層網路介面之綱要擷取研究.淡江大學資訊管理學系碩士班學位論文.
[5]	蘭洋,尤磊.(2009).Deep Web聯規則的整體模式匹配. 信陽師範學院學報:自然科學版, 22(4) , pp.607-610.
[6]	Bernstein, P. A., Madhavan, J., and Rahm, E. (2011). Generic schema matching, ten years later. In Proceedings of the VLDB Endowment, 4(11), pp. 695-701.
[7]	Bernstein, P. A., Melnik, S., and Churchill, J. E. (2006). Incremental schema matching. In Proceedings of the 32nd International Conference on Very Large Databases, pp. 1167-1170.
[8]	Chen, K., Zuo, W., He, F., and Chen, Y. (2011). Hybrid Schema Matching for Deep Web. In Intelligent Computing and Information Science, pp. 165-170.
[9]	Chiticariu, L., Kolaitis, P. G., and Popa, L. (2008). Interactive generation of integrated schemas. In Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data, pp. 833-846
[10]	Doan, A., Domingos, P., and Halevy, A. Y. (2001). Reconciling schemas of disparate data sources: A machine-learning approach. In Proceedings of the ACM SIGMOD , 30(2), pp. 509-520.
[11]	Dragut, E., Wu, W., Sistla, P., Yu, C., and Meng, W. (2006). Merging source query interfaces on web databases. In Proceedings of the 22nd International Conference on IEEE, pp. 46-46.
[12]	El-Gamil, B. R., Winiwarter, W., Božić, B., and Wahl, H. (2011). Deep web integrated systems: current achievements and open issues. In Proceedings of the 13th International Conference on Information Integration and Web-based Applications and Services, pp. 447-450.
[13]	Gotoh, O. (1982). An improved algorithm for matching biological sequences. Journal of Molecular Biology, 162(3), pp.705-708.
[14]	He, B., and Chang, K. C. C. (2006). Automatic complex schema matching across web query interfaces: A correlation mining approach. ACM Transactions on Database Systems (TODS), 31(1), pp.346-395.
[15]	He, H., Meng, W., Yu, C., and Wu, Z. (2004). Automatic integration of Web search interfaces with WISE-Integrator. The VLDB Journal, 13(3), pp. 256-273.
[16]	He, H., Meng, W., Lu, Y., Yu, C., and Wu, Z. (2007). Towards deeper understanding of the search interfaces of the deep web. World Wide Web, 10(2), pp. 133-155.
[17]	Naz, T., Dorn, J., and Poulovassilis, A. (2010). Configurable meta-search in the job domain. International Journal of Web Engineering and Technology, 6(1), pp. 33-57.
[18]	Nguyen, H., Nguyen, T., and Freire, J. (2008). Learning to extract form labels. In Proceedings of the VLDB Endowment, 1(1), pp. 684-694.
[19]	Nguyen, H., Nguyen, T., and Freire, J. (2010). PruSM: a prudent schema matching approach for web forms. In Proceedings of the 19th ACM International Conference on Information and Knowledge Management, pp. 1385-1388. 
[20]	Pottinger, R. A., and Bernstein, P. A. (2003). Merging models based on given correspondences. In Proceedings of the 29th International Conference on Very Large Databases, pp. 862-873.
[21]	Su, W., Wang, J., and Lochovsky, F. (2006). Holistic schema matching for web query interfaces. In Advances in Database Technology-EDBT, pp. 77-94.
[22]	Wang, J., Wen, J. R., Lochovsky, F., and Ma, W. Y. (2004). Instance-based schema matching for web databases by domain-specific query probing. In Proceedings of the 30th International Conference on Very Large Databases, pp. 408-419.
[23]	Wu, W. (2006). Integrating Deep Web Data Sources. Department of Computer Science, Ph.D. thesis. University of Illinois at Urbana-Champaign.
[24]	Wu, W., Yu, C., Doan, A., and Meng, W. (2004). An interactive clustering-based approach to integrating source query interfaces on the deep web. In Proceedings of the 2004 ACM SIGMOD International Conference on Management of Data, pp. 95-106.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後1年公開
校外
同意授權
校外電子論文於授權書繳交後1年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信