§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2606201716501200
DOI 10.6846/TKU.2017.00932
論文名稱(中文) 應用於影片推薦系統的集群技術比較
論文名稱(英文) Comparisons of Clustering Techniques for Movie Recommender System
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 2
出版年 106
研究生(中文) 林宜潔
研究生(英文) Yi-Jie Lin
學號 604650274
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2017-06-17
論文頁數 65頁
口試委員 指導教授 - 陳景祥
委員 - 李百靈
委員 - 何宗武
關鍵字(中) 推薦系統
K-modes分群
K-means分群
類別型資料
關鍵字(英) Recommendation Systems
K-mode Clustering
categorical data
第三語言關鍵字
學科別分類
中文摘要
現今網路普及率極高,許多企業都選擇在網路上銷售產品。為了多類型產品的促銷,不少購物網站都會向瀏覽者推薦其他的產品,因而衍生出推薦系統的需求。推薦系統可以採用許多不同的技術來實作,其中集群分析(Clustering)為資料探勘中常被使用的分析方法,其主要原理為藉由資料間的相似特性將資料分群。此外,部分網站也讓消費者能夠給產品評分,藉以收集更多的推薦資訊。但在實務上,大部分的使用者會主動給予評分的狀況非常少,導致相關 K-means 等類似技術在計算時的矩陣稀疏性。為此,本論文比較可兼容分類變數的K-mode分群方法與採用數值資料的K-means分群法,探討兩者應用 Movielens線上影片評價資料製作推薦系統的預測成效。
英文摘要
Nowadays, information technology is well developed and there is lots of information on the Internet, including all kinds of product reviews and user information, which can be used to develop recommender systems. The techniques used in recommender systems include classification prediction, cluster analysis, association rule analysis, etc. 
Based on MovieLens movie review dataset, we develop and compare movie recommender systems using clustering techniques, with or without the presence of categorical user information.
The result shows that our proposed movie recommender system via  K-modes clustering method generally performs better than the traditional K-means method when the number of movies in the recommendation list is less than 40.
第三語言摘要
論文目次
圖目錄	III
表目錄	V
第一章緒論	1
1.1	研究背景和動機	1
1.2	問題討論及研究目的	3
1.3	論文架構	5
 第二章 文獻探討	6
2.1	長尾理論(The Long Tail)	6
2.2	推薦系統(Recommender System)	8
2.2.1	基於人口統計學的推薦	10
2.2.2	內容導向式推薦(Content-based)	11
2.2.3	協同式過濾推薦(Collaborative filtering)	12
2.2.4	混合式推薦系統(Hybrid)	15
2.2.5	推薦系統問題討論	16
2.2.6	推薦系統準確度評估	19
2.3	集群分析(Cluster Analysis)	22
2.3.1	K-Means Algorithm	24
2.3.2	K-Mode Algorithm	27
 第三章電影推薦系統的架構流程	32
3.1	資料庫	33
3.2	電影類型	34
3.3	評價分數	37
3.4	分群演算法	39
3.5	K-Means對評價分數的資料加權	40
3.6	K-Modes 法分類資料的準備	42
3.7	推薦方法	44
3.7.1	K-means 分群推薦	44
3.7.2	K-modes 分群推薦	45
 第四章 分析結果和成效評估	46
4.1	分析環境	46
4.2	分析資料集	47
4.3	分群結果評估	47
4.3.1	最佳分群數	47
4.3.2	K-Modes vs. K-Means分群結果	50
4.4	推薦系統準確度評估	53
 第五章結論和建議未來展望	59
5.1	結論	59
5.2	建議和未來展望	60
 參考文獻	61
英文文獻	61
中文文獻	64
資料來源	65
圖目錄
圖1:Amazon個人化推薦單	2
圖2:Netflix推薦單	2
圖3:Source: Personalized Video Ranker 指標	4
圖4:長尾理論	6
圖5:到2017網站總數量	9
圖6:人口統計學的推薦圖示	10
圖7:內容導向式推薦圖示	11
圖8:協同式過濾推薦圖示	13
圖9:循序組合流程	15
圖10: Precision-Recall關係圖	20
圖11:K-means分群資料	24
圖12: k-means之k個初始集群的中心	25
圖13: k-means之產生初始k個群集	25
圖14: k-means之產生新的質量中心	26
圖15: K-mode分群資料	28
圖16: K-mode之產生初始H個群中心	29
圖17: K-mode之產生H個群集	30
圖18:電影推薦系統流程	32
圖19:K-means資料處理流程圖	41
圖20:K-modes資料處理流程圖	43
圖21: K-means 七個分群在 19 個電影分類的比例	51
圖22: K-means 七個分群中,每群最前面五個類型的累積比例圖	52
圖23: K-modes 法七群在 19 個電影分類的偏好眾數	53
圖24: K-means vs. K-modes: 精確度(Precision)比較	55
圖25: K-means vs. K-modes: 召回率(Recall) 比較	55
圖26: K-means vs. K-modes: F-measure 指標比較	56
圖27: K-means: 精確度/F-measure vs. 召回率	57
圖28: K-modes: 精確度/F-measure vs. 召回率	57
  表目錄
表1:User-Item Matrix	14
表2:推薦系統優缺點	18
表3:Confusion Matrix	19
表4: K-means & K-mode分群優缺點	31
表5:電影類型	34
表6: movies檔案資料	35
表7:Toy Story類型標記	36
表8:使用者對不同電影評價分數	38
表9: R 軟體NbClust 套件分群結果	49
表10: K-means vs. K-Modes的分群結果	50
表11: K-Means 各群前五類最喜愛的電影類型(括號中為比例)	50
表12: K-Modes 各群前五類最喜愛的電影類型(刮號中為眾數)	51
表13: K-means vs. K-modes: 精確度, 召回率, 與 F-measure 比較	54
參考文獻
英文文獻
1.	Adomavicius, G., & Tuzhilin, A. (2005). Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions. IEEE Transactions on Knowledge and Data Engineering , B, pp. 734-749.
2.	Goldberg, D., Nichols. D., Oki, B. M. & Terry, D., (1992)Using Collaborative Filtering to Weave an Information Tapestry. Communications of the ACM - Special issue on information filtering, 35, pp. 61-70.
3.	Resnick, H., Acierno, R., Holmes, M., Kilpatrick, D.G., & Jager, N. (1999) Prevention of Post-Rape Psychopathology: Preliminary Findings of a Controlled Acute Rape Treatment Study. Journal of Anxiety Disorders, 13, pp. 359-370.
4.	Schafer, J. B., Konstan, J., & Riedl, J. (1999). Recommender systems in e-commerce. Paper presented at the Proceedings of the 1st ACM Conference on Electronic Commerce, pp. 158-166.
5.	Herlocker J. L., Konstan, J. A., & Riedl, J. (2000). Explaining collaborative filtering recommendations. CSCW '00 Proceedings of the 2000 ACM conference on Computer supported cooperative work. pp. 241-250.
6.	Huang, Z., Chen, H., & Zeng, D. (2004) Applying associative retrieval techniques to alleviate the sparsity problem in collaborative filtering. ACM Transactions on Information Systems, 22 , pp. 116-142.
7.	Lam, X . N., Vu. T., Le. T. D., & Duong,.A. D. (2008). Addressing cold-start problemin recommendation systems. in: Proceedings of the 2nd International Conference on Ubiquitous Information Management and Communication, pp. 208-211.
8.	Zhang, C.J., & Zeng, A. (2012) Behavior patterns of online users and the effect on information filtering. Physica A: Statistical Mechanics and its Applications, 391, pp. 1822-1830.
9.	Zhou,T., Ren, J., Medo, M., & Zhang, Y.C. (2007). Bipartite network projection and personal recommendation, Physical Review E, 76, 046115.
10.	MacQueen, J. B. (1967). Some Methods for classification and Analysis of Multivariate Observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 1, pp. 281-291.
11.	Huang, Z., (1998).Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values. Data Mining and Knowledge Discovery, 2, pp.283-304.
12.	Motiani, S., Patel, V., & Shah, D. (2013). Movie Classification Using k-Means and Hierarchical Clustering An analysis of clustering algorithms on movie scripts.
13.	Wilson, J., Chaudhury, S., LallB,. R. (2014). Improving Collaborative Filtering based Recommenders using Topic Modelling. Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT), 1, pp. 340-346.
14.	Huang, J. Z., (2009). Clustering Categorical Data with k-Modes. Encyclopedia of Data Warehousing and Mining, pp. 246-250.
15.	Mahdavi, M., & Dakhel, G. (2011).A new collaborative filtering algorithm using Kmeans clustering and neighbors' voting. IEEE Xplore Digital Library. pp. 179-184.
16.	Kularbphettong1, K., Somngam, S., Tongsiri, C., & Roonrakwit, P. (2014). A Recommender System using Collaborative Filtering and K-Mean Based on Android Application. Applied Mathematics, Computational Science and Engineering. pp. 161-166.
17.	Hennig, C., & Liao, T., (2013). How to find an appropriate clustering for mixed-type variables with application to socio-economic stratification. Applied Statistics, 62, pp. 309-369.
18.	Hartigan, J.A. (1972). Direct Clustering of a Data Matrix. Journal of the American Statistical Association, 67, pp.123-169.
19.	Byström, H., (2013). Movie Recommendations from User Ratings.
20.	Sharma, N., & Gaud, N., (2015). K-modes Clustering Algorithm for Categorical Data. International Journal of Computer Applications, 127, pp.1-6.  
21.	He, Z., Xu, X., & Deng, S.,(2010). Attribute value weighting in k-Modes clustering. Expert Systems with Applications,38, pp. 15365-15369.
22.	Christodoulou, P., Lestas, M., & Andreou, A. S., (2013). A Dynamic Web Recommender System Using Hard and Fuzzy K-Modes Clustering. IFIP International Conference on Artificial Intelligence Applications and Innovations, 40, pp. 40-51.
中文文獻
1.	羅健銘. (2001). 協同過濾於網站推薦之研究. 臺北科技大學商業自動化與管理碩士班碩士論文.
2.	吳肇銘,金志聿,林怡秀. (2004). 協同過濾技術在商品推薦系統上之應用與成效評估, 第十五屆國際資訊管理學術研討會, 中原大學資訊管理碩士班.
3.	吳振銘. (2012). 應用改良式K-means分群法於個人化音樂推薦服務系統之實現,國立高雄應用科技大學碩士班碩士論文.
4.	曾靖茹. (2003). 群集式協同過濾推薦方法之研究, 中山大學資訊管理碩士班碩士論文.
5.	葉思妤. (2013). 一個使用雙分群演算法進行智慧型手機應用程式推薦之框架, 國立政治大學資訊科學碩士班碩士論文.
6.	陳榮昌,林育臣. (2003). 群聚演算法之比較及群聚參數的分析與探討, 朝陽科技大學資訊管理研究碩士班碩士論文.
7.	陳宏鎮. (2008) 一個基於音樂資料分群與使用者興趣之音樂推薦系統, 國立清華大學資訊工程碩士班碩士論文.
8.	陳彥良. (2005). 協同過濾式群體推薦. 國立中央大學資訊管理碩士班碩士論文.
9.	余佳鍇. (2008). 利用資料屬性出現頻率的快速k-modes分群法. 國立海洋大學資訊工程碩士班碩士論文.
10.	Novieka Distiasari (2015). 應用萬用演算法為基礎之K-modes演算法於供應商分群之研究. 國立臺灣科技大學工業管理碩士班碩士論文.
11.	Ghilman Fatih (2015). Movie Sales Pattern Clustering For Recommendation System. 國立台灣科技大學工業管理碩士班碩士論文.
12.	陳景祥(2010), R軟體:應用統計方法, 台灣東華.
資料來源
電影資料來源: https://grouplens.org/datasets/movielens/
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信