§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0109201616251100
DOI 10.6846/TKU.2016.00042
論文名稱(中文) 基於Prefixspan 演算法結合旅遊景點行程計算
論文名稱(英文) Point of Interest Calculation based on Prefixspan
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 104
學期 2
出版年 105
研究生(中文) 李映宜
研究生(英文) Ying-Yi Lee
學號 603410654
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2016-07-20
論文頁數 53頁
口試委員 指導教授 - 蔡憶佳
委員 - 顏淑惠
委員 - 林慶昌
關鍵字(中) Hadoop
雲端運算
MapReduce
Prefixspan
關鍵字(英) Hadoop
Cloud computing
MapReduce
Prefixspan
第三語言關鍵字
學科別分類
中文摘要
隨著現在社會交通的便利及通訊的發達,觀光旅遊業也越來越熱門。許多想旅遊的人常常會透過網路來尋找有趣的景點,也有許多人透過網路分享出遊心得,這些心得文往往能吸引這些想去旅遊且從網路找資訊的人,甚至於將這些心得問的推薦景點納入出遊行程中,這些大都是零散的資訊,並未透過整合與統計,若是第一次出遊到未知地區的人們,可能無法快速地知道那個地區的熱門景點,在安排行程上就會花上許多時間。
目前有許多網路平台在整理不同區域的景點,但未提供推薦數,看的人只知道景點,而無法得知熱門程度,就如同找聚會的餐廳時,只知道許多家餐廳,但並不知道這家餐廳是否許多人推薦。本研究也是在解決這個問題,實作一個幫助規劃出遊行程,讓人們能了解各地的熱門景點的平台。這個研究結合計算大量旅遊訊息有效的方法,通過興趣點比較不同的算法解決這個問題,結果顯示Prefixspan 比aprioriall 在目前Hadoop 計算平台上更有效率。
英文摘要
The rapid development and popularity of transport technology encourages people to travel frequently.
As many traveling experiences are been shared through the Internet,more people are searching interesting sites from different web sites. Traveling informations including itinerary and accomodations are scattered and it is not easy to grasp relevant information. Especially when people want information regarding to regions where they never been to before, questions such as the most popular attractions, and what are the restaurant most visited are not easy to answer.
In order to answer the above questions, efficient methods in combining and calculating the large amount of traveling informations are needed. This thesis address the issue by comparing different algorithms in calculating point of interest. The result showed prefixspan is more efficient than aprioriall in a modern day Hadoop computation platform.
第三語言摘要
論文目次
目錄
Acknowledgements ii
論文提要 iii
Abstract iv
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 論文架構 3
第二章 相關研究 4
2.1 Hadoop 4
2.2 MapReduce 6
2.3 HDFS 8
2.4 資料探勘 9
2.5 關聯式規則11
2.6 AprioriAll 13
2.7 Prefixspan 16
第三章 系統架構與研究方法 18
3.1 系統架構 18
3.2 資料庫轉換19
3.3 景點特徵樣式探勘運算程式架構20
3.3.1 Driver 設置20
3.3.2 Mapper 設置 22
3.3.3 Reducer 設置 23
3.4 Prefixspan 結合MapReduce 架構23
3.4.1 架構概念 23
3.4.2 Mapper 類別的設計 24
3.4.3 Reducer 類別的設計 26
3.4.4 景點搭配與機率 27
第四章 系統實作與評估 30
4.1 開發工具與環境 30
4.2 模擬數據 31
4.3 Hadoop 系統實作 34
4.3.1 MapReduce 運行結果  35
4.3.2 MapReduce 任務完成 37
4.3.3 景點機率實作 39
4.3.4 執行效能比較 40
4.4 實作問題討論 41
4.4.1 同名檔案的問題 41
第五章 結論與未來展望 42
5.1 結論42
5.2 未來展望 42
參考文獻 43
附錄-英文論文 45


圖目錄

Figure 2.1 Hadoop 架構5
Figure 2.2 MapReduce 架構圖7
Figure 2.3 資料探勘流程圖10
Figure 2.4 AprioriAll 演算法15
Figure 2.5 prefix 映射資料庫及循序樣式17
Figure 2.6 prefixspan 演算法17
Figure 3.1 系統架構流程圖19
Figure 3.2 資料轉換方式19
Figure 3.3 WordCount 經過Mapper 的結果22
Figure 3.4 使用於MapReduce 兩個演算法23
Figure 3.5 經過Prefixspan 演算法的結果27
Figure 3.6 景點順序示意圖28
Figure 3.7 景點機率示意圖28
Figure 4.1 權重平均之各POIs 的次數31
Figure 4.2 權重各半之各POIs 的次數32
Figure 4.3 權重特定之各POIs 的次數33
Figure 4.4 HDFS 應用程式介面34
Figure 4.5 HDFS 應用程式介面34
Figure 4.6 上傳至HDFS 的檔案紀錄35
Figure 4.7 執行MapReduce 的畫面36
Figure 4.8 MapReduce 執行後的結果檔案36
Figure 4.9 機率的運算結果39
Figure 4.10 演算法執行效能比較40

表目錄

Table 2.1 依照顧客及交易時間排序的資料庫13
Table 2.2 轉換後的顧客序列資料庫13
Table 2.3 大型項目集14
Table 2.4 轉換後的顧客序列資料庫14
Table 2.5 各階層長度的大序列集合14
Table 2.6 顧客交易範例資料庫16
Table 2.7 顧客序列資料庫16
Table 3.1 Mapper 類別的主要參數24
Table 3.2 Reducer 類別的主要參數26
Table 4.1 prefix 映射資料庫及循序樣式32
Table 4.2 支持度為0 的所有序列37
Table 4.3 大於最小支持度的所有序列38
參考文獻
[1] 王淑卿, 李金鳳, 江茂綸, 曾莉雅, 留旻懋, 洪瑋修, 簡輝銘, and 毛上仁, “建構雲端資源管理整合平台—以hadoop 為例”, in 第七屆資訊科技國際研討會, 2013.
[2] 高鈺棟, “建構輕鬆管理易於擴充的hadoop 運算環境”, 麟瑞科技股份有限公司, Tech. Rep., 2014.
[3] 劉棟, 尉永清, and 薛文娟,“基於mapreduce 的序列模式挖掘算法”, 計算機工程第 15 期, 2012.
[4] R. Agrawal and R. Srikant, “Mining sequential patterns”, in Proceedings of the 11th International Conference on Data Engineering, 1995, pp. 3–14. doi: 10.1109/ICDE.1995.380415.
[5] Apache hadoop, https://zh.wikipedia.org/wiki/Apache_Hadoop.
[6] Apache hadoop project. [Online]. Available: http://hadoop.apache.org/.
[7] Apache hadoop project - example:wordcount v2.0, http : / / hadoop . apache . org/docs/r1.0.4/mapred_tutorial.html#Example%3A%%+WordCount+v2.0.
[8] Apache hbase, https://zh.wikipedia.org/wiki/Apache_HBase.
[9] Apriori algorithm-wikipedia, the free encyclopedia, https://en.wikipedia.org/
wiki/Apriori_algorithm.
[10] Association rule learning-wikipedia, the free encyclopedia, https://en.wikipedia.
org/wiki/Association_rule_learning.
[11] Cloud computing - wikipedia,the free encyclopedia, https://en.wikipedia.org/
wiki/Cloud_computing.
[12] Data mining-wikipedia, the free encyclopedia, https://en.wikipedia.org/wiki/Data_mining.
[13] Jeffrey Dean and Sanjay Ghemawat, Mapreduce: Simplified data processing on large clusters, 2004.
[14] Divide and conquer algorithms-wikipedia, the free encyclopedia,https://en.wikipedia.org/wiki/Divide_and_conquer_algorithms.
[15] Hadoop 2.6.0 api reference. [Online]. Available: http://hadoop.apache.org/docs/
r2.6.0/api/index.html.
[16] Hdfs users guide, https://hadoop.apache.org/docs/r2.6.0/hadoop-projectdist/
hadoop-hdfs/HdfsUserGuide.html.
[17] Master/slave computing on the grid, 2002.
[18] Jian Pei, Jiawei Han, B. Mortazavi-Asl, H. Pinto, Qiming Chen, U. Dayal, and Mei-
Chun Hsu, “Prefixspan,: Mining sequential patterns efficiently by prefix-projected pattern growth”, in Proceedings of the 17th International Conference on Data Engineering, 2001, pp. 215–224. doi: 10.1109/ICDE.2001.914830.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信