淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1107201917185000
中文論文名稱 基於本體論與網頁探勘之旅遊資訊檢索系統
英文論文名稱 An Ontology-Based Tourism Information Retrieval System with Web Mining
校院名稱 淡江大學
系所名稱(中) 資訊管理學系碩士在職專班
系所名稱(英) On-the-Job Graduate Program in Advanced Information Management
學年度 107
學期 2
出版年 108
研究生中文姓名 錢培棣
研究生英文姓名 Pei-Li Chien
學號 706630034
學位類別 碩士
語文別 中文
口試日期 2019-06-01
論文頁數 43頁
口試委員 指導教授-鄭啟斌
委員-鄭啟斌
委員-黃旭立
委員-張昭憲
中文關鍵字 本體論  語意網  網路爬蟲  文字探勘  旅遊資訊檢索 
英文關鍵字 Ontology  Semantic Web  Web Crawler  Text-Mining  Tourism Information Retrieval 
學科別分類
中文摘要 由於彈性放假政策而增加連續假期的次數,使得國人有更多機會安排旅遊活動,而自行規劃行程的個人旅遊因較具彈性而受到絕大多數人的青睞。
近年來上網人口不斷成長,越來越多的人選擇利用電腦或手機上網以取得旅遊資訊,然而市面上各大旅遊網站所提供的服務與資訊,大多著重在行程規劃建議、預訂交通食宿,以及特定地點的介紹與網友評價,幾難見到針對少數族群的特殊需求提供資訊檢索的服務,而利用搜尋引擎查詢旅遊相關資訊時,經常因回應的資訊量過於龐大而需耗費許多時間進行篩選。
因此,本研究將設計一套旅遊資訊檢索系統,以本體論作為基礎,結合網頁探勘技術,建立旅遊知識庫,以改善現行網頁搜尋回應資料正確性。同時提供使用者以口語化方式進行資訊檢索,以增加人機介面親和性,便利使用者操作。
英文摘要 As a result of the flexible holiday policy, the number of consecutive holidays has been increased, which has made possible for our compatriots to arrange for tourist activities and independent travel, with its self-planned itinerary, is favored by a vast majority for its adaptability.
In recent years, the Internet users population has been growing steadily and more people are choosing to use computers or mobile phones to obtain tourist information. However, most of the services and information provided by the major travel websites in the market focus on travel itinerary planning, transportation and accommodation booking, as well as the introduction and the evaluation of particular places by netizens. It is almost impossible to see information retrieval services for the special needs of minorities. When using search engines to query for travel-related information, it often takes a lot of time to return a reply as the amount of information to be screened is much too gigantic.
Therefore, this study will design a Tourism Information Retrieval System, based on ontology, combined with web mining technology, to establish a travel knowledge database in order to set up the travel information database, which aims to improve the correctness of the current web search response data. Simultaneously, users are provided with a colloquial manner for information retrieval in order to increase the human-machine interface affinity and facilitate user operation.
論文目次 目 錄
========================================
目 錄 III
圖目錄 V
表目錄 VII
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目的 3
1.4 論文大綱 3
第二章 文獻探討 4
2.1 本體論 4
2.2 語意網 5
2.3 文字探勘 6
2.3.1 Jieba中文分詞程式 6
2.3.2 字詞權重計算 7
2.3.3 相似度計算 8
2.4 相關應用研究 9
2.4.1 資料探勘與知識管理 9
2.4.2 旅遊本體論應用 10
第三章 研究架構 11
3.1 網頁爬蟲 11
3.1.1 網頁結構分析 11
3.1.2 目標資料鎖定 12
3.1.3 網頁資料擷取 13
3.2 文字探勘 16
3.2.1 自建詞庫 16
3.2.2 斷句處理 16
3.2.3 Jieba斷詞 17
3.2.4 關鍵詞萃取 18
3.3 旅遊知識庫 18
3.3.1 本體模型設計 18
3.3.2 旅遊知識庫建構 20
3.4 系統前台 21
3.4.1 關鍵詞解析 21
3.4.2 資料檢索 21
第四章 系統實作與結果驗證 24
4.1 系統實作 24
4.1.1 網頁探勘模組 25
4.1.2 旅遊知識管理模組 26
4.1.3 資訊檢索模組 33
4.2 系統畫面 35
4.3 結果驗證 36
4.4 與現行網站服務比較 39
第五章 結論與未來研究方向 41
5.1 結論 41
5.2 未來方向 41
參考文獻 42

圖目錄
========================================
圖1-1 近三年國人旅遊資訊來源比較 2
圖2-1 本體論組成元素 4
圖2-2 語意網階層式架構 5
圖2-3 Jieba斷詞程序 7
圖3-1 研究架構圖 11
圖3-2 網頁內容 12
圖3-3 網頁結構 12
圖3-4 網頁元素標示功能 13
圖3-5 目標資料標籤 13
圖3-6 網頁爬蟲程式範例 14
圖3-7 目標資料文字內容 14
圖3-8 使用者觸發事件控制項 15
圖3-9 模擬使用者操作程式範例 15
圖3-10 經使用者觸發之事件 15
圖3-11 斷句處理程式範例 17
圖3-12 斷句處理後內容 17
圖3-13 Protégé系統 19
圖3-14 本體模型架構圖 19
圖3-15 旅遊知識庫建構流程 20
圖3-16 資料檢索處理流程 22
圖3-17 查詢程式 - 銀座提供素食的中式餐廳 23
圖4-1 系統架構圖 24
圖4-2 網頁探勘模組作業流程 25
圖4-3 旅遊知識管理模組作業流程 26
圖4-4 旅遊本體模型 26
圖4-5 實例 - 東京都 27
圖4-6 實例 - 飲食限制 27
圖4-7 實例 - 菜系 27
圖4-8 實例 - 服務 27
圖4-9 關聯屬性範圍 - 位於 28
圖4-10 關聯屬性範圍 - 所屬菜系 28
圖4-11 關聯屬性範圍 - 提供服務 29
圖4-12 關聯屬性範圍 - 提供飲食限制 29
圖4-13 資料屬性歸屬類別與資料型態 - 內文 30
圖4-14 資料屬性歸屬類別與資料型態 - 原始網址 30
圖4-15 資料屬性歸屬類別與資料型態 - 地址 31
圖4-16 資料屬性歸屬類別與資料型態 - 官方語言 31
圖4-17 資料屬性歸屬類別與資料型態 - 幣別 32
圖4-18 資料屬性歸屬類別與資料型態 - 業者名稱 32
圖4-19 資料屬性歸屬類別與資料型態 - 電話 33
圖4-20 資訊檢索模組作業流程 34
圖4-21 查詢程式 - 秋葉原提供吸菸區的咖啡廳 35
圖4-22 系統畫面展示 36
圖4-23 整體驗證結果分析 39

表目錄
========================================
表1-1 近三年國人旅遊狀況統計 1
表2-1 詞頻矩陣 8
表3-1 自建詞庫詞性表 21
表3-2 查詢關鍵詞及詞性 21
表3-3 SPARQL語法 - 銀座提供素食的中式餐廳 22
表4-1 系統建置環境與開發工具 24
表4-2 外部網站資料檔 25
表4-3 關鍵詞及詞性對應本體模型類別 34
表4-4 SPARQL語法 - 秋葉原提供吸菸區的咖啡廳 34
表4-5 測試人員甲驗證結果 37
表4-6 測試人員乙驗證結果 37
表4-7 測試人員丙驗證結果 38
表4-8 測試人員丁驗證結果 38
表4-9 測試人員戊驗證結果 38
表4-10 本研究系統與現行網站服務比較 40
參考文獻 一、中文文獻
[1] GitHub-Inc.,〈GitHub - fxsjy/jieba: 結巴中文分詞〉,網址:https://github.com/fxsjy/jieba,上網日期:2019年2月1日。
[2] GitHub-Inc.,〈搜狗、百度、QQ輸入法的詞庫文件的 Java 解析程序,配合 ThesaurusSpider 使用〉,網址:https://github.com/WuLC/ThesaurusParser,上網日期:2019年2月1日。
[3] GitHub-Inc.,〈GitHub - ldkrsi/jieba-zh_TW: 結巴中文斷詞台灣繁體版本〉,網址:https://github.com/ldkrsi/jieba-zh_TW,上網日期:2019年2月1日。
[4] QQ.PINYIN.CN,〈QQ輸入法-詞庫平台〉,網址:http://dict.qq.pinyin.cn/,2019。
[5] SOGOU.COM,〈搜狗細胞詞庫_詞庫下載_詞典_輸入法字典〉,網址:https://pinyin.sogou.com/dict/,上網日期:2019年2月1日。
[6] TripAdvisor,〈TripAdvisor 貓途鷹:閱讀評論、比較價格和預訂〉,網址:https://www.tripadvisor.com.tw,上網日期:2019年3月1日。
[7] 中華民國交通部觀光局,〈中華民國104年國人旅遊狀況調查〉,交通部觀光局觀光市場調查摘要,中華民國交通部觀光局,2015。
[8] 中華民國交通部觀光局,〈中華民國105年國人旅遊狀況調查〉,交通部觀光局觀光市場調查摘要,中華民國交通部觀光局,2016。
[9] 中華民國交通部觀光局,〈中華民國106年國人旅遊狀況調查〉,交通部觀光局觀光市場調查摘要,中華民國交通部觀光局,2017。
[10] 日本觀光局,〈日本觀光局〉,網址:https://www.welcome2japan.tw/index.html,上網日期:2019年2月18日。
[11] 王治立,《旅遊語意網整體服務系統之建置》,碩士論文,大葉大學資訊管理學系碩士班,2004。
[12] 百度,〈百度輸入法-詞庫首頁〉,網址:https://shurufa.baidu.com/dict,上網日期:2019年2月1日。
[13] 郝志揚,《使用文字探勘實作新聞事件追蹤》,碩士論文,淡江大學資訊工程學系碩士班,2017。
[14] 莊雨薇,《半自動化建置本體論-以旅遊本體論為例》,碩士論文,國立成功大學工程科學系碩博士班,2006。
[15] 許孟淵,《以本體論為基礎之新聞事件檢索與瀏覽》,碩士論文,國立雲林科技大學資訊管理系碩士班,2006。
[16] 蔣謹謙,《開發基於知識本體之國中公民法規教學語意查詢系統》,碩士論文,南華大學資訊管理學系,2017。
[17] 蕭守善,《設計與實作一個以語意網為基礎且具自動組裝服務之旅遊服務系統》,碩士論文,國立東華大學資訊工程學系,2011。
二、英文文獻
[18] Berners-Lee, T., Fielding, R., and Masinter, L., Uniform resource identifier (URI): Generic syntax, RFC Editor, 2004.
[19] Berners-Lee, T., and Fischetti, M., Weaving the Web : the original design and ultimate destiny of the World Wide Web by its invento, San Francisco : HarperSanFrancisco, 1999. 1st ed., 1999.
[20] Berners-Lee, T., Hendler, J., and Lassila, O., "The Semantic Web," Scientific American, vol. 284, no. 5, pp. 34-43, 2001.
[21] Bray, T., Paoli, J., Sperberg-McQueen, C. M., Maler, E., and Yergeau, F., "Extensible markup language (XML)," World Wide Web Journal, vol. 2, no. 4, pp. 27-66, 1997.
[22] Brickley, D., Guha, R. V., and McBride, B., RDF vocabulary description language 1.0: RDF Schema. https://www.w3.org/TR/2004/REC-rdf-schema-20040210/, accessed 2018/11/1.
[23] dotNetRDF-Project, dotNetRDF. https://www.dotnetrdf.org/, accessed 2019/2/1.
[24] Farhadloo, M., and Rolland, E., "Multi-Class Sentiment Analysis with Clustering and Score Representation," 2013 IEEE 13th International Conference on Data Mining Workshops, Data Mining Workshops (ICDMW), 2013 IEEE 13th International Conference on, Data Mining Workshops (ICDMW), 2012 IEEE 12th International Conference on, pp. 904, 2013.
[25] Google.com, Google. https://www.google.com.tw/?gws_rd=cr&ei=jHZtUtbfJYqNrgeE9YHwDA, accessed 2019/4/1.
[26] Gruber, T. R., "Toward principles for the design of ontologies used for knowledge sharing," International journal of human-computer studies, vol. 43, no. 5-6, pp. 907-928, 1995.
[27] Guarino, N., Formal ontology in information systems: Proceedings of the first international conference (FOIS'98), June 6-8, Trento, Italy, Vol. 46 IOS press, 1998.
[28] Hendler, J., "Agents and the Semantic Web," IEEE Intelligent systems, vol. 16, no. 2, pp. 30-37, 2001.
[29] Horridge, M., A Practical Guide To Building OWL Ontologies Using protégé 4 and CO-ODE Tools Edition 1.3, The University Of Manchester, 2011.
[30] Horrocks, I., and Patel-Schneider, P. F., "Three Theses of Representation in the Semantic Web," Proceedings of the 12th international conference on World Wide Web, pp. 39-47, 2003.
[31] Klyne, G., Carroll, J. J., and McBride, B., Resource Description Framework (RDF): Concepts and Abstract Syntax. https://www.w3.org/TR/rdf-concepts/, accessed 2018/11/1.
[32] Microsoft, NuGet Gallery | dotNetRDF 2.2.0. https://www.nuget.org/packages/dotNetRDF/, accessed 2019/2/1.
[33] Mikolov, T., Chen, K., Corrado, G., and Dean J., Efficient estimation of word representations in vector space. https://arxiv.org/abs/1301.3781, accessed 2018/12/1.
[34] Noy, N. F., and McGuinness, D. L., Ontology development 101: A guide to creating your first ontology, Stanford Knowledge System Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report SMI-2001-0880, 2001.
[35] Salton, G., and Buckley, C., "Term-weighting approaches in automatic text retrieval," Information processing & management, vol. 24, no. 5, pp. 513-523, 1988.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2019-07-22公開。
  • 同意授權瀏覽/列印電子全文服務,於2019-07-22起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信