§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2607201815365400
DOI 10.6846/TKU.2018.00852
論文名稱(中文) 串流資料演算法於推薦系統的應用
論文名稱(英文) Application of Streaming Data Algorithms to Recommender System
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 106
學期 2
出版年 107
研究生(中文) 廖瑋婕
研究生(英文) Wei-Chieh Liao
學號 605650091
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2018-07-17
論文頁數 44頁
口試委員 指導教授 - 陳景祥
委員 - 李百靈
委員 - 吳漢銘
關鍵字(中) 推薦系統
串流資料
K-means分群
Affinity Propagation分群
關鍵字(英) K-means clustering
Affinity Propagation clustering
Recommender System
data stream
第三語言關鍵字
學科別分類
中文摘要
近年來,由於資訊科技的發達,資料的種類越來越多元,因此串流資料(Data stream)也成為重要的研究領域,例如電子商務採購、網頁點擊資料、電話通訊資料、信用卡交易資訊等等。這些資料需依個別記錄按照順序處理,這樣才能快速因應所發生的各種狀況,並在需要時即時做出反應。
    本論文探討分群串流資料演算法(clustering data stream algorithm)應用在推薦系統時,是否能更有效率的給予即時且精準的推薦商品,並以公開的MovieLen資料集中使用者對於電影的評分資訊,比較K-means與Affinity Propagation Clustering這兩種分群算法,比較推薦結果的差異,以達到最佳推薦,發掘用戶潛在喜好的商品為目標。
英文摘要
In recent years, due to the development of information technology and the variety of data types, streaming data has become an important research area, such as e-commerce purchasing, web page click data, telephone communication data, credit card transaction information, etc. Since the large volumes of data arriving in a stream, most traditional algorithms might be not  efficient. 
This thesis discusses whether the data stream clustering algorithm can be used to recommend real-time and accurate recommended products. Based on MovieLens movie review dataset, we develop and compare movie recommender system using data stream clustering algorithm to achieve the best recommendation and explore the potential products of users.
第三語言摘要
論文目次
目錄
目錄	IV
表目錄	IV
圖目錄	V
第一章 緒論	1
1.1 研究背景與動機	1
1.2 問題討論與研究目的	2
1.3 論文架構	3
第二章 文獻探討	4
2.1 CluStream	4
2.2 集群分析	10
2.2.1 Weighted K-means	10
2.2.2 Affinity Propagation Clustering (APcluster)	10
2.2.3 K-means與APcluster的比較	12
2.3 推薦系統(Recommender System)	13
2.3.1基於人口統計學的推薦	14
2.3.2 內容導向式推薦	(Content-based)	14
2.3.3協同式過濾推薦(Collaborative filtering)	15
2.2.4	混合式推薦系統(Hybrid)	17
2.2.5 Top-N推薦	17
2.2.6	推薦系統問題討論	17
2.4 推薦系統準確度評估	18
2.3.1 F-score	19
2.3.2 Mean Average Precision (MAP)	21
第三章 推薦系統的架構流程	23
3.1 資料庫	24
3.2 電影類型	24
3.3	推薦方法	26
3.3.1 資料準備	26
3.3.2 分群推薦方法	27
第四章 分析結果和成效評估	28
4.1分析環境	28
4.2分群結果評估	29
4.2.1最佳分群數	29
4.2.2 	K-Means vs. Apcluster 分群結果與準確度評估	30
第五章結論和建議未來展望	40
5.1結論	40
5.2建議和未來展望	41
參考文獻	42
資料來源	44
表目錄
表 2.1 cluster feature vector	6
表 2.2 Pyramidal Time Frame	7
表 2.3 User-Item Matrix	16
表2.4 混淆矩陣	19
表 3.1 movies檔案資料	25
表3.2 Toy Story 類型標記	25
表4.1 推薦清單分群數	29
表4.2 兩方法推薦失敗個數	31
表4.3 不同推薦數量下的MAP值與F-score	34

 
圖目錄
圖2.1 Online To Offline	9
圖3.1 影片推薦流程	23
圖 4.1 前兩百個推薦清單分群數	30
圖4.2 推薦清單為5、10的推薦失敗數	32
圖4.3 推薦清單為20、40的推薦失敗數	33
圖4.4 推薦清單數目為5、10的MAP值	35
圖4.5 推薦清單數目為20、40的MAP值	36
圖4.6 推薦清單數目為5、10的平均F-score值	37
圖4.7 推薦清單數目為20、40的平均F-score值	38
參考文獻
英文文獻
1.	Adomavicius G., Tuzhilin A.(2005). Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions, IEEE Transactions on Knowledge and Data Engineering,17,6,pp.734-749
2.	Aggarwal C.C., Han J., Wang J., Yu P.S.(2003). A framework for clustering evolving data streams, Proceedings - 29th International Conference on Very Large Data Bases, VLDB 2003,pp.81-92
3.	Bu J., Shen X., Xu B., Chen C., He X., Cai D.(2016). Improving Collaborative Recommendation via User-Item Subgroups, IEEE Transactions on Knowledge and Data Engineering,28,9,pp.2363-2375
4.	Frey B.J., Dueck D.(2007). Clustering by passing messages between data points,Science,315,5814,pp.972-976
5.	Goldberg D., Nichols D., Oki B.M., Terry D.(1992) Using collaborative filtering to Weave an Information tapestry, Communications of the ACM,35,12,pp.61-70
6.	Herlocker J. L., Konstan, J. A., & Riedl, J. (2000). Explaining collaborative filtering recommendations, CSCW'00 Proceedings of the 2000 ACM conference on Computer supported cooperative work. pp. 241-250.
7.	Li B., Liao Y., Qin Z.(2014). Precomputed clustering for movie recommendation system in real time, Journal of Applied Mathematics,2014
8.	Schafer, J. B., Konstan, J., & Riedl, J. (1999). Recommender systems in e-commerce, Paper presented at the Proceedings of the 1st ACM Conference on Electronic Commerce, pp. 158-166.
9.	Yang H., Yi D., Yu C.(2016). Cluster Data Streams with Noisy Variables, Communications in Statistics: Simulation and Computation,45,4,pp.1381-1396
中文文獻
1.	林宜潔(2017), 應用於影片推薦系統的集群技術比較, 淡江大學統計學系應用統計學系碩士班碩士論文.
2.	陳景祥(2010), R 軟體:應用統計方法, 台灣東華.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信