淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2406201112393500
中文論文名稱 以正規表示式萃取研討會資訊之研究
英文論文名稱 Research on Extraction of Conference Information Based on Regular Expressions
校院名稱 淡江大學
系所名稱(中) 資訊管理學系碩士班
系所名稱(英) Department of Information Management
學年度 99
學期 2
出版年 100
研究生中文姓名 陳康毅
研究生英文姓名 Kang-Yi Chen
學號 698630539
學位類別 碩士
語文別 中文
口試日期 2011-05-28
論文頁數 51頁
口試委員 指導教授-魏世杰
委員-廖賀田
委員-戚玉樑
委員-陳大正
中文關鍵字 資訊萃取  研討會資訊  正規表示式 
英文關鍵字 information extraction  conference information  regular expression 
學科別分類 學科別社會科學管理學
學科別社會科學資訊科學
中文摘要 一般研究者在投稿研討會時,常面臨適合自己主題的研討會還有哪些尚未截稿的問題。另外,在經費及時間考量下,也要確定會議地點及開會時間是否適合自己的情況。雖然目前研討會資訊可以從搜索引擎查詢而得,但是研究者仍需在輸入關鍵字之後,一筆一筆檢視查詢結果網頁,以找尋最符合自己需求的研討會,這相當的花費時間。
本文目的在實作一個研討會輔助查詢系統,能從使用者輸入的主題關鍵詞,透過搜索引擎找回描述相關研討會的網頁。然後以正規表示式分析網頁文字前後的關係,從中萃取一般投稿者關心的研討會名稱,主題,截稿日期,開會日期,開會地點,及研討會網址共六項資訊。本文也建立一個圖形使用者介面,讓使用者能藉由簡單的查詢句輸入,將每一筆回傳網頁萃取到的六項資訊彙整在表格中,供使用者查閱。使用者可點選資料列顯示原始網頁純文字標記內容,或是開啟瀏覽器連結原始網頁的頁面,確認六項萃取資訊正確與否。同時系統允許投稿者依各欄位作排序,而整理出最適合自己投稿,排好順位的幾個研討會,供匯出或列印之用。希望透過本系統,研究者能方便找到適合自己條件的研討會,有效減少逐一開啟網頁檢視的時間。
最後本文也針對Google搜尋引擎下的搜尋結果進行萃取資訊正確性的評估。實驗分析顯示本系統萃取的研討會六項資訊皆有不錯的正確性,可供使用者有效參考使用。
英文摘要 When finding conferences for paper submission, researchers often have to find those conferences whose submission deadlines are not due yet. Furthermore researchers have to make sure that the conference's location and date fit their specific cost and time constraints. Though the conference information can be looked up from search engines, users still has to spend a lot of time filtering each returned page laboriously to find the conferences meeting their needs.
This work aims to implement a query system which can help users find their desired conferences easily. They just need to input the topic of the paper in keywords. The system will send the keywords to the search engine and fetch the hitting conference web pages for information extraction. Based on regular expressions, the system will analyze the text in a web page and extract the six items of desired information which include the conference's title, topics, submission deadline, conference date, location, and the url. A graphic user interface is provided which allows the user to input the topic keywords and browse the returned conferences in a table. Each row in the table summarizes the extracted information of a conference in six fields. For verification, the user can click the conference to see the web page in a pure text or rendered format. The system also allows field sorting or hand moving to edit a table of desired conferences for exporting or printing use. With the system in this work, the researchers will benefit a lot in finding conferences fitting their needs more efficiently.
At the end, evaluation of the extracted information based on the output of the Google search engine is also conducted. The experiment shows that the six items of conference information extracted by the system are good for use in terms of the precision and recall performances.
論文目次 目錄
第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究問題與目的 2
1.3 研究架構 3
第二章 文獻探討 6
2.1 研討會網站資訊萃取之研究 6
2.2 網頁文字分析 7
2.3 HTMLUNIT 7
2.4 Regular Expressions 8
2.5 圖形使用者介面使用元件 10
第三章 方法介紹 13
3.1 問題定義 13
3.2 系統架構 13
3.3 欄位候選值的選取 15
3.3.1 擷取研討會名稱 15
3.3.2 擷取研討會舉辦日期與截稿日期 17
3.3.3 擷取研討會地點 22
3.3.4 擷取研討會主題 23
3.3.5 擷取研討會原網址 29
3.4 篩選候選字串 29
3.5 系統設計 30
第四章 實驗結果 34
4.1 實驗設計 34
4.1.1 資料來源 34
4.1.2 網頁文字擷取 35
4.1.3 條件限制 37
4.1.4 測試集的製作 37
4.2 實驗環境 38
4.3 評估方式 39
4.3.1 長短文字片段門檻值參數 40
4.4 實驗結果 41
4.5 操作介面 43
第五章 結論與未來發展 48
參考文獻 50

圖目錄
圖1-1:本論文的研究流程圖 5
圖3-1:系統架構 14
圖3-2:短文字片段擷取流程 18
圖3-3:主題欄位擷取流程(虛框為嚴謹模式使用) 24
圖3-4:數字標題開頭的中文研討會主題網頁畫面 25
圖3-5:數字標題開頭的英文研討會主題網頁畫面 26
圖3-6:符號開頭的研討會主題網頁畫面 26
圖3-7:符號開頭的英文研討會主題網頁畫面 26
圖3-8:符號開頭的網頁原始碼案例 27
圖3-9:沒有任何項目符號的研討會主題網頁畫面 27
圖3-10:候選字串的篩選流程 30
圖3-11:搜尋處理流程圖 31
圖4-1:HtmlUnit取得結果網頁超連結流程圖 35
圖4-2:網頁所見樣式 36
圖4-3:網頁原始碼案例 36
圖4-4:HtmlUnit擷取文字原始碼案例 37
圖4-5:模組關係圖 38
圖4-6:文字比對示意圖 39
圖4-7:中文字門檻值比較 40
圖4-8:英文字門檻值比較 41
圖4-9:圖形使用者查詢介面頁籤 44
圖4-10:表格提示資訊 45
圖4-11:表格資料列詳細的文字檔內容 45
圖4-12:依Date欄位排序後的表格 46
圖4-13:加入列印按鈕 46
圖4-14:列印頁籤畫面 47?

表目錄
表1-1:標籤混用的原始碼 2
表2-1:HtmlUnit擷取網頁的基本函式 8
表2-2:正規表示式常見語法 9
表2-3:使用Pattern類別進行正規式的匹配範例 10
表2-4:Java建立執行緒池程式範例 12
表3-1:六個投稿研討會重要的欄位資訊 13
表3-2:研討會名稱的篩選正規表示式 15
表3-3:日期的正規表示式 17
表3-4:研討會日期關鍵字詞 19
表3-5:截稿日期關鍵字詞 20
表3-6:研討會日期的長文字片段正規式 20
表3-7:截稿日期的長文字片段正規式 21
表3-8:地址與地點的正規表示式 22
表3-9:研討會地點關鍵字 22
表3-10:研討會地點較長文字段落正規表示式 23
表3-11:研討會主題關鍵字 24
表3-12:研討會主題停用字 25
表3-13:研討會主題資訊長文字段落正規表示式 28
表3-14:超連結正規表示式 29
表3-15:緒池功能簡介 30
表4-1:實驗環境 38
表4-2:中文欄位評估結果 41
表4-3:英文欄位評估結果 42
表4-4:相關文獻的精確率/召回率比 43
參考文獻 [1] 史嘉淋,《應用資訊擷取技術實作研討會資訊檢索系統》,碩士論文,國立嘉義大學資訊工程學系,2007。
[2] 李信賢,《使用網頁切割與支援向量機技術擷取特定領域網頁資料》,碩士論文,國立嘉義大學資訊工程學系,2010。
[3] 胡姝涵、張嘉惠,《會議公告網站資訊擷取之研究》,第十一屆人工智慧與應用研討會,中央大學,2006。
[4] 董振東、董強,知網(HOWNET),取自http://keenage.com,1999。
[5] ACM , http://portal.acm.org/conferences.cfm?CFID=10820168&CFTOKEN=91350223
[6] B. Liu, web data mining- exploring hyperlinks, contents, and usage data, Springer, 2007
[7] C. D. Manning, P. Raghavan and H. Schutze, Introduction to Information Retrieval , Cambridge University Press , 2008
[8] D. Cai, S. Yu, J.-R. Wen, and W.-Y. Ma, VIPS: A Vision Based Page Segmentation Algorithm, Microsoft Technical Report, MSR-TR-2003-79, 2003.
[9] DB World , http://www.cs.wisc.edu/dbworld/browse.html
[10] HtmlUnit, http://htmlunit.sourceforge.net/
[11] I. H Witten, E. Frank. Data Mining , Morgan Kaufmann, 2005
[12] IEEE, http://ieeexplore.ieee.org/Xplore/dynhome.jsp
[13] M. Collins and Y. Singer. Unsupervised Models for Named Entity Classification. InProc. of Intl. Conf. on Empirical Methods in Natural Language Processing, pp. 100–110, 1999.
[14] P. J. Deitel, H. M. Deitel, JAVA HOW TO PROGRAM, Pearson Education,2007
[15] S. Soderland, Learning Information Extraction Rules for Semi-Structured and FreeText, Machine Learning, Vol. 34, No. 1-3, pp. 233-272, 1999.
[16] wiki, finite-state machine, http://en.wikipedia.org/wiki/Finite-state_machine
[17] wiki , Regular expression , http://en.wikipedia.org/wiki/Regular_expression
[18] wiki, yacc , http://en.wikipedia.org/wiki/Yacc
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2016-06-27公開。
  • 同意授權瀏覽/列印電子全文服務,於2016-06-27起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信