淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1404201117230900
中文論文名稱 一個識別特定主題深網查詢介面的分類器
英文論文名稱 A Domain-Specific Deep Web Query Interface Classifier
校院名稱 淡江大學
系所名稱(中) 資訊管理學系碩士班
系所名稱(英) Department of Information Management
學年度 99
學期 1
出版年 100
研究生中文姓名 張珮慈
研究生英文姓名 Pei-Tzu Chang
學號 696631513
學位類別 碩士
語文別 中文
口試日期 2011-01-12
論文頁數 80頁
口試委員 指導教授-周清江
委員-梁恩輝
委員-陸承志
中文關鍵字 深層網路  查詢介面  搜尋引擎 
英文關鍵字 Deep Web  Query Interface  Search Engine 
學科別分類 學科別社會科學管理學
學科別社會科學資訊科學
中文摘要 根據研究估算,深層網路(Deep Web)的規模大約為表層網路(Surface Web)的400~550倍,為了擷取深網資料庫的內容,首先必須找出資料庫的入口,即深網查詢表單。此外,由於深網內容通常屬於某個特定主題,為了從眾多該特定主題的網頁表單中識別出深網查詢表單,本研究提出一個兩階段的分析方法,結合提交查詢前之表單分析以及提交查詢後之表單分析,發展一個自動化深網查詢介面識別技術。不同於其他研究,本研究不僅能識別出查詢表單,更能進一步過濾搜尋引擎、站內搜尋這類只對靜態網頁進行索引的非深網查詢表單。
在前置準備階段,我們會建立非查詢表單欄位特徵字,並透過大量爬行特定主題查詢表單以擷取出該主題常見欄位語意。我們的分類系統,在提交查詢前之表單分析這個階段,我們使用非查詢表單欄位特徵字優先過濾常見的非查詢表單,以降低提交查詢的時間成本。在參考提交查詢結果之表單分析這個階段,我們利用常見欄位語意對表單自動填值以實際對表單自動提交查詢,並根據查詢回傳的結果進一步分析,以判定表單是否為特定主題的深網查詢介面。實驗結果顯示,我們提出的方法可以得到高精確度(precision),不僅可過濾搜尋引擎這類的非深網查詢表單,更可自動偵測及過濾連結失效的查詢表單。
英文摘要 From previous research, the amount of data of the deep web is about 400 to 550 times larger than that of the surface web. In order to retrieve the deep web content residing in databases, we need to find the entrances of the databases, which are the deep web query interfaces. Moreover, since the content of deep web is domain-specific, to identify the deep web query interfaces from various web forms, we propose a two-phase analysis methodology which combines pre-query and post-query analyses, and develop an automatic deep web query interface classification technique. We not only can identify deep web query forms, but also can filter out search engine forms and site search forms, which are to extract static web pages inside a site.
Before the classification, we would build feature words for the non-query forms, and would crawl a large scale of domain-specific query forms to extract the semantics of popular fields of that domain. In our classification system, in the pre-query analysis phase, we use feature words for the non-query forms to filter out non-query forms so that processing time at the next phase could be reduced. In the post-query analysis stage, we use the field semantics to fill in values and submit forms automatically, and then classify forms according to the query results of the forms. The experimental result shows our two-phase analysis methodology can obtain high precision. We can filter out not only the search engine forms and site search forms, but also deep web query forms which link to disabled databases.
論文目次 目錄
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目的 3
1.4 研究範圍與限制 4
第二章 文獻探討 5
2.1. 網頁爬行器 5
2.1.1. 通用爬行器 6
2.1.2. 特定主題爬行器 7
2.1.3. 查詢表單物件爬行器 7
2.1.4. 特定主題及查詢表單物件爬行器 8
2.2. 未提交查詢之表單分析 9
2.2.1. 擷取及解析表單特徵 9
2.2.2. 未提交查詢之表單分類 11
2.3. 參考提交查詢結果之表單分析 12
2.3.1. 自動提交查詢 13
2.3.2. 擷取查詢結果 15
2.3.3. 參考提交查詢結果之表單分類 17
第三章 背景介紹 19
3.1. 搜尋引擎 19
3.2. 深網 20
3.3. 深網相關議題 23
3.4. 網頁表單簡介 25
第四章 特定主題深網查詢介面分類器 27
4.1. 系統架構與元件說明 27
4.1.1. 整體系統架構說明 27
4.1.2. 各系統元件說明 31
4.2. 前置準備子系統 33
4.2.1. 建立非查詢表單欄位特徵字 33
4.2.2. 建立特定主題深網查詢表單欄位資料 33
4.2.3. 擷取特定主題常見欄位同義字 39
4.2.4. 擷取關鍵字欄位特徵字 40
4.3. 分類子系統 43
4.3.1. 提交查詢前之表單分析 43
4.3.1.1. 擷取表單特徵 43
4.3.1.2. 分析表單特徵 44
4.3.2. 提交查詢後之表單分析 46
4.3.2.1. 提交查詢之處理原則 46
4.3.2.2. 各控制項之填值策略 49
4.3.2.3. 擷取查詢結果 53
4.3.2.4. 分析查詢結果 58
第五章 實驗與討論 63
5.1 實驗環境 63
5.2 前置工作 63
5.3 實驗結果 65
5.3.1 系統元件執行時間 65
5.3.2 分類結果 66
5.4 討論 68
5.5 與相關研究之比較 72
第六章 結論與未來展望 76
參考文獻 78

圖目錄
圖1: 網頁表單分類 25
圖2: 分類器系統架構圖 30
圖3: 多欄位表單範例 35
圖4: 多欄位表單原始碼範例 36
圖5: 控制項與標籤對應結果 37
圖6: Google線上辭典回傳結果 39
圖7: 具備父子關係的控制項範例 47
圖8: 深網查詢介面範例 47
圖9: 以下拉式選單呈現的區間欄位 47
圖10: 深網查詢介面範例 49
圖11: 查詢條件轉換範例 50
圖12: 查詢回傳頁面 53
圖13: 查詢結果訊息及分頁資料列範例 54
圖14: HTML原始碼範例 55
圖15: DOM tree範例 55
圖16: 深網查詢介面查詢結果 57
圖17: 查詢結果判斷流程圖 58
圖18: 深網查詢介面查詢結果 59
圖19: 深網查詢結果範例 62
圖21: 查詢結果筆數過少範例 70
圖22: 未標示資料欄位語意之查詢結果範例 71

表目錄
表1: 特定主題深網查詢表單欄位資料表 38
表2: 同義字資料表(部份) 40
表3: 關鍵字欄位特徵字出現次數統計表 42
表4: 關鍵字欄位特徵字相關參數實驗結果 51
表5: 實驗環境 63
表6: 提交前分類器執行時間 65
表7: 提交查詢前之表單分類結果(Book) 66
表8: 提交查詢後之表單分類結果(Book) 66
表9: 表單分類結果(Book) 66
表10: 搜尋引擎、站內搜尋及連結失效表單分類結果(Book) 67
表11: 提交查詢前之表單分類結果(Job) 67
表12: 提交查詢後之表單分類結果(Job) 67
表13: 表單分類結果(Job) 68
表14: 搜尋引擎、站內搜尋及連結失效表單分類結果(Job) 68
表15: 與相關研究之比較 72
參考文獻 [1] 凌妍妍, 孟小峰 & 劉偉 (2008). 基於屬性相關度的Web數據庫大小估算方法. 軟件學報, 19(2), pp. 224-236.
[2] 鄭淑麗, 韓江洪, 程文娟 & 吳永忠 (2009). Deep Web查詢接口自動識別方法. 鄭州大學學報, 41(1), pp. 56-63.
[3] 劉偉, 孟小峰 & 孟衛一 (2007). Deep Web數據集成研究綜述. 計算機學報, 30(9), pp. 1475-1489.
[4] Barbosa, L. & Freire, J. (2004). Siphoning hidden-web data through keyword -based interfaces. Proceedings of the 19th Brazilian Symposium on Databases (SBBD), pp. 309-321.
[5] Barbosa, L. & Freire, J. (2005). Searching for hidden-web databases. In WebDB Workshop, pp. 1-6.
[6] Barbosa, L. & Freire, J. (2007). Combining classifiers to identify online databases. Proceedings of the 16th International Conference on World Wide Web, pp. 431-440.
[7] Bergholz, A. & Chidlovskii, B. (2003). Crawling for domain-specific hidden web resources. Proceedings of the 4th International Conference on Web Information Systems Engineering (WISE), pp. 125-133.
[8] Bergman, M. K. (2001). The deep web: surfacing hidden value. Technical report, BrightPlanet LLC.
[9] Brin, S. & Page, L. (1998). The anatomy of a large-scale hypertextual Web search engine, Proceedings of the 7th International Conference on World Wide Web, pp. 107-117.
[10] Caverlee, J., Liu, L. & Buttler, D. (2004). Probe, cluster, and discover: focused extraction of qa-pagelets from the deep web. Proceedings of the 28th International Conference on Very Large Data Bases, pp. 103-114.
[11] Chakrabarti, S., van den Berg, M. & Dom, B. (1999). Focused crawling: a new approach to topic-specific web resource discovery. Computer Networks and ISDN Systems, 31(11-16), pp. 1623-1640.
[12] Chang, K. C.-C., He, B., Li, C., Patel, M. & Zhang, Z. (2004). Structured databases on the web: observations and implications. SIGMOD Record, 33(3), pp. 61–70.
[13] Cope, J., Craswell, N. & Hawking, D. (2003). Automated discovery of search interfaces on the web. Proceedings of the 14th Australasian Database Conference, pp. 181-189.
[14] Fetter, D., Manasse, M., Najork, M. & Wiener, J. L. (2003). A large scale study of the evolution of web pages. Proceedings of the 12th International Conference on World Wide Web, pp. 669-678.
[15] He, B., Li, C., Killian, D., Patel, M., Tseng, Y. & Chang, K. C.-C. (2006). A structure-driven yield-aware web form crawler: building a database of online databases. Technical Report, University of Illinois at Urbana-Champaign.
[16] He, H., Meng, W., Yu, C. & Wu, Z. (2005). Constructing interface schemas for search interfaces of web databases. Proceedings of the 6th International Conference on Web Information Systems Engineering,
pp. 29-42.
[17] He, H., Meng, W., Lu, Y., Yu, C. & Wu, Z. (2007). Towards deeper understanding of the search interfaces of the deep web. World Wide Web, 10(2), pp. 133-155.
[18] Hedley, Y.L., Younas, M., James, A. & Sanderson, M. (2004). A two-phase sampling technique for information extraction from hidden web databases. Proceedings of the 6th annual ACM international workshop on Web information and data management, pp. 1-8.
[19] Horowitz, E. & Ru, Y. (2005). Indexing the invisible web: a survey. Online Information Review, 29(3), pp. 249-265.
[20] Khare, R., An, Y., Song, I.-Y. (2010). Understanding deep web search interfaces: a survey. SIGMOD Record, 39(1), pp. 33-40.
[21] Madhavan, J., Ko, D., Kot, L., Ganapathy, V., Rasmussen, A. & Halevy, A. (2008). Google’s deep-web crawl. Proceedings of the VLDB Endowment, 1(2), pp. 1241-1252.
[22] Nguyen, H., Nguyen, T. & Freire, J. (2008). Learning to extract form labels. Proceedings of the VLDB Endowment, 1(1), pp. 684-694.
[23] Shestakov, D. (2008). Search interfaces on the web: querying and characterizing. Doctoral Dissertation. Turku Centre for Computer Science, University of Turku, Finland.
[24] Shu, L., Meng, W., He, H. & Yu, C. (2007). Querying capability modeling and construction of deep web sources. Proceedings of the 8th International Conference on Web Information Systems Engineering,
pp. 13-25.
[25] Wu, P., Wen, J.-R., Liu, H. & Ma, W.-Y. (2006). Query selection techniques for efficient crawling of structured web sources. Proceedings of the 22nd International Conference on Data Engineering, pp. 47-47.
[26] Zhang, Z., He, B. & Chang, K. C.-C. (2004). Understanding web query interfaces: best-effort parsing with hidden syntax. Proceedings of the 2004 ACM SIGMOD Conference, pp. 107-118.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2012-04-15公開。
  • 同意授權瀏覽/列印電子全文服務,於2012-04-15起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信