淡江大學覺生紀念圖書館 (TKU Library)

系統識別號 U0002-2202201911331600
中文論文名稱 網頁時間表格領域分類之研究
英文論文名稱 A Study On The Domain Classification Of Web Time Tables
校院名稱 淡江大學
系所名稱(中) 資訊管理學系碩士班
系所名稱(英) Department of Information Management
學年度 107
學期 1
出版年 108
研究生中文姓名 吳庭誼
研究生英文姓名 Ting-Yi Wu
學號 602630542
學位類別 碩士
語文別 中文
口試日期 2019-01-11
論文頁數 40頁
口試委員 指導教授-周清江
中文關鍵字 表格結構  領域分類  領域關鍵字  資料探勘 
英文關鍵字 Table Structure  Domain Classification  Domain Keyword  Data Mining 
中文摘要 近年來越來越多網頁利用表格呈現小量但有意義的資料,因為採用表格呈現的資料,可以讓使用者很清楚的了解表格所包含資料內容間的關係,例如“交通時刻表”、“民宿價位表”、“門診時刻表”等。在網頁資料表格中,有許多跟時間相關的表格,強烈影響使用者的生活作息安排,本研究稱他們為網頁時間表格。目前各個應用領域相關的網頁時間表格分散在不同的網頁,使用者想要搜尋或彙整該領域的資料都非常不方便,本研究即在探討如何正確的進行網頁時間表格的領域分類,以大幅提升各應用領域的網頁時間表格內容整合及運用。我們提出比對各表格之表格標頭集合與領域關鍵字庫的方法,分別利用標頭字詞的出現次數和標頭字詞的TFIDF值兩種判斷方式,以分辨表格屬於何種領域。本研究依據上述概念以C#程式語言建置系統,並比較兩種判斷方式的分類效果。利用F-Measure評估後發現,本研究所提出之兩種方法,均有助網頁時間表格領域分類。
英文摘要 Nowadays more and more web tables are utilized to demonstrate clear and concise presentation for small amount of data and their relationships, mainly due to the fact that web tables help facilitate better understanding of the contents. Examples are “traffic timetable”, “hotel and hostel price table”, “clinic schedule table”, and so on. Many web tables are related to time, and they have great influence on internet users’ daily lives. We call them “Web Time Tables". Currently, for each application domain, web time tables have been widely distributed in miscellaneous websites. It is time-consuming and inconvenient to search, collect and integrate these useful data. If web time tables could be classified into their domains precisely, then these data could be greatly utilized to enhance their integration and application. We address the following research issue: how to design and develop a domain classification system for the web time tables? We propose to collect a web time table's set of header strings first. Then its domain is determined through matching them with domain-specific keywords, which are collected by training. In the classification step, we propose two methods: one is based on number of matching keywords, and the other is based on the TFIDF value of matching keywords. We implement the above concepts and compare performances of these two methods. Through F-Measure, our proposed methods are proved that they could effectively perform classification of the web time tables.
論文目次 目錄
第一章 緒論1
第二章 文獻探討5
第三章 網頁時間表格領域分類系統架構 9
第四章 實驗與比較19
4.2資料集 19
4.4.5討論 33
第五章 結論與未來發展36

表 3 1:門診時刻表範例-1正規化後表格標頭13
表 3 2:門診時刻表範例-1最後表格標頭及其出現次數14
表 4 1:Group 3 1%領域詞庫訓練之結果25
表 4 2:Group 3 1%領域詞庫TFIDF之結果 26
表 4 3:領域分類結果之混淆矩陣27
表 4 4:領域分類結果效能表28
表 4 5:領域分類結果之混淆矩陣28
表 4 6:領域分類結果效能表29

圖 1-1:表格功能結構圖Zanibbi[16]3
圖 3 1:網頁時間表格分類系統運作流程9
圖 3 2:門診時刻表範例-110
圖 3 3:交通時刻表範例-111
圖 3 4:民宿價位表範例-111
圖 4 1:Group 1訓練結果22
圖 4 2:Group 2訓練結果22
圖 4 3:Group 3訓練結果23
圖 4 4:Group 4訓練結果23
圖 4 5:Group 5訓練結果24
圖 4 6:領域分類錯誤門診時刻表範例-130
圖 4 7:領域分類錯誤門診時刻表範例-231
圖 4 8:領域分類錯誤交通時刻表範例-132
圖 4 9:其他類型表格範例34
圖 4 10:其他類型表格範例35
參考文獻 參考文獻
