§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1907201701494000
DOI 10.6846/TKU.2017.00653
論文名稱(中文) 用資料探勘方法預測對抗型團隊比賽的勝率-以NBA例行賽為例
論文名稱(英文) Using Data Mining Method to Predicting Winning Percentage for Dual Meet Team Sport – Using NBA Regular Season as a Case Study
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 2
出版年 106
研究生(中文) 王斯霈
研究生(英文) Szupei Wang
學號 604630037
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2017-06-04
論文頁數 50頁
口試委員 指導教授 - 楊明玉
委員 - 周惠文
委員 - 戴敏育
關鍵字(中) 對抗型比賽
預測
NBA
關鍵字(英) Dual meet team sport
Prediction
NBA
第三語言關鍵字
學科別分類
中文摘要
本研究目的在於找出影響對抗型球隊比賽勝負的關鍵因素,並藉由建立適合NBA數據的模型,進而以此構建對抗型球隊比賽的數據模型,預測未來競賽的勝負情況。研究中使用了1996-1997年賽季到2015-2016年賽季資料,並產生預測2016-2017年賽季的得分與勝負,再與實際賽事結果做比較,以此判斷模型的適用性。
  本研究依據建模之後的結果,得到兩分得分與罰球得分是影響球隊勝負的關鍵因素。使用預測所得到的分數來判斷模型的準確率,其結果顯示這四個模型 (rpart、cubist、randomforest、svm) 的錯誤率均小於12%,預測準確率均在60%上下波動。更進一步來說,cubist和randomforest兩個模型在2013-2016這3個賽季與2012-2016這4個賽季中的錯誤率皆小於10%,表示這兩個模型具有高準確的預測能力。在預測勝負方面,研究結果顯示第四次的測試準確率都較其他測試結果佳,準確率均介於56到60% 之間。從此研究中發現,在做資料分析或預測時要使用較多的模型相互比較,才能做較客觀的判斷。另外,根據本研究數據,數值型的預測能力強過分類型的預測能力。
英文摘要
The purpose of this study is to find out the key factors that affect the outcome of the confrontational team competition, and to build the model for the NBA data, and then build the data model of the opposing team competition to predict the outcome of the future competition. The use of the 1996-1997 season to 2015-2016 season data, and produce the forecast 2016 - 2017 season, the score and the outcome, and then compared with the actual results to determine the applicability of the model.
    Based on the results after modeling, the two points score and free throw score is the key factor affecting the outcome of the team. The results show that the error rate of these four models (rpart, cubist, randomforest, svm) is less than 12%, and the prediction accuracy fluctuates at 60%. Further, the Cubist and randomforest models have less than 10% error rates in the three seasons of 2013-2016 and 2012-2016, indicating that the two models have high accuracy. In the prediction of the outcome, the results show that the fourth test accuracy than other test results are good, the accuracy rate is between 56 to 60%. From this study found that in the analysis or prediction of data to use more models to compare each other in order to make more objective judgments. In addition, according to the data of this study, the numerical predictive ability is stronger than the predictive ability.
第三語言摘要
論文目次
目錄
 第一章 緒論	1
1.1	研究背景	1
1.2	研究動機	4
1.3	研究目的	5
1.4	研究流程	5
 第二章 文獻探討	6
2.1	美國國家籃球協會	6
2.2	NBA數據分析	8
2.3	網路爬蟲	10
2.4	資料探勘(Data Mining)	11
2.4.1	模型判斷	12
2.4.2	決策樹(Decision tree)	13
2.4.3	支持向量機(Support Vector Machine)	14
2.4.4	羅吉斯迴歸(Logistic regression)	15
2.5	R軟體	15
 第三章 研究方法	17
3.1	網路爬蟲(Web Crawler)	17
3.1.1	爬蟲流程	17
3.1.2	網站選取	18
3.1.3	使用套件	18
3.1.4	驗證資料正確性	18
3.2	資料準備	19
3.2.1	資料前處理	19
3.2.2	資料整理	19
3.3	模型建立	20
3.3.1	數值型模型 - 預測得分	21
3.3.2	分類型模型 - 預測勝負	22
 第四章 資料分析與結果	24
4.1	數據模型的變數說明	24
4.2	模型比較	26
4.2.1	數值型模型 – 預測得分	26
4.2.2	分類型模型 – 預測勝負	29
4.3	預測模型比較	33
4.3.1	預測得分	33
4.3.2	預測勝負	41
 第五章 結論與建議	47
參考文獻	48

圖目錄
圖1 1 美國人最喜歡的運動	3
圖1 2 研究流程	5
圖2 1 例行賽平均票價	7
圖2 2 決策樹架構圖	14
圖2 3 R套件成長曲線	15
圖2 4 前10名資料分析軟體	16
圖3 1 爬蟲流程圖	17
圖 3 2 模式建構流程圖I	20
圖 3 3 模式建構流程圖II	21

表目錄
表1 1 全球前10名受歡迎的運動項目	1
表1 2 美國前5名受歡迎的運動項目	2
表2 1 NBA各隊分布	6
表2 2 NBA相關研究	9
表4 1 網站提供變數資訊	24
表4 2 整理後的球隊資料變數說明	25
表4 3 第一次測試的MAPE比較	27
表4 4第二次測試的MAPE比較	27
表4 5第三次測試的MAPE比較	28
表4 6 第四次測試的MAPE比較	28
表4 7 各方法所挑選出的變數	29
表4 8 第一次測試的分類準確率比較	29
表4 9 第二次測試的分類準確率比較	30
表4 10 第三次測試的分類準確率比較	31
表4 11 第四次測試的分類準確率比較	32
表4 12 第一次測試的MAPE	34
表4 13 第一次測試的預測準確率	35
表4 14 第二次測試的MAPE	36
表4 15 第二次測試的預測準確率	36
表4 16 第三次測試的MAPE	36
表4 17 第三次測試的預測準確率	36
表4 18 第四次測試的MAPE	37
表4 19 第四次測試的預測準確率	37
表4 20 第一次測試的MAPE	38
表4 21 第一次測試的預測準確率	39
表4 22 第二次測試的MAPE	39
表4 23 第二次測試的預測準確率	39
表4 24 第三次測試的MAPE	40
表4 25 第三次測試的預測準確率	40
表4 26 第四次測試的MAPE	40
表4 27 第四次測試的預測準確率	41
表4 28 第一次測試的預測準確率	42
表4 29 第二次測試的預測準確率	42
表4 30 第三次測試的預測準確率	43
表4 31 第四次測試的預測準確率	43
表4 32 第一次測試的預測準確率	44
表4 33 第二次測試的預測準確率	45
表4 34 第三次測試的預測準確率	45
表4 35 第四次測試的預測準確率	46
參考文獻
參考文獻
1.	AgrestiAlan. (2007). An Introduction to Categorical Data Analysis. USA: Wiley.
2.	Aryan, O., & Sharafat, A. (2014) R.A novel approach to predicting the results of NBA matches. www.semanticscholar.org  working paper
3.	BakerE., & Kwartler, T.R. (2015). Sport analytics: Using open source logistic regression software to classify upcoming play type in the NFL. Journal of Applied Sport Management(2). 擷取自 https://search.proquest.com/docview/
1730027840?accountid=14237
4.	Beckler, M., Wang, H., & Papamichael, M. (2013). Nba oracle. Zuletzt Besucht Am, 17, 2008-2009. 

5. BowlesMichael. (2016). 機器學習使用Python 進行預測分析的基本原理. 台北市: 基峯資訊. 
6. De Peuter, C. (2013). Modeling basketball games as alternating renewal-reward processes and predicting match outcomes. Duke University Libraries. 
7. Ergül, B. (2014). Classification of NBA league teams using discriminant and logistic regression analyses. Pamukkale Journal of Sport Sciences, 5(1), 48-60. 
8. Giarta, E., & Asavareongchai, N. (2015) Predicting win percentage and winning features of NBA teams. www.semanticscholar.org working paper 
9. Hoffman, L., & Joseph, (2003) M.A multivariate statistical analysis of the NBA. www.semantic 
10. Hu, F., & Zidek, J. V. (2004). Forecasting NBA basketball playoff outcomes using the weighted likelihood. Lecture Notes-Monograph Series, , 385-395. 
11. J.Berkson. (1944). Application of the logistic function to bio-assay. Journal of American Statistical Association, 頁 357-365. 
12. LantzBrett. (2015). Machine Learning eith R Second Edition. UK: Packt. 

13. LoeffelholzBednar, E., & Bauer, K. W.B.,. (2009). Predicting NBA games using neural networks. Journal of Quantitative Analysis in Sports(9). 擷取自 https://search.proquest.com/docview/36458995?accountid=14237 
14. Mean absolute percentage error. (2016年9月12日). 擷取自 Wikipedia: https://en.wikipedia.org/wiki/Mean_absolute_percentage_error 
15. MishraPradeepta. (2016). R Data Mining Blueprints. UK: Packt. 
16. OliverDean. (2004). Basketball on Paper: Rules and Tools for Performance Analysis Paperback. 
17. PischeddaG. (2014). Predicting NHL match outcomes with ML models. International Journal of Computer Applications, 9. doi:http://dx.doi.org/10.5120/ 17714-8249 
18. RaschkaSebastian. (2016). Python機器學習. 新北市: 博碩文化. 
19. SunZhongfeng. (2015). Brief Probe into the Brand and Marketing Strategy of NBA. Asian Social Science(16), 頁 183-186. 
20. Thelwall, M. (2001). A web crawler design for data mining. Journal of Information Science, 27(5), 319-325. 
21. Wei, N. (2011). Predicting the outcome of NBA playoffs using the naïve bayes algorithms. University of South Florida, College of Engineering, 
22. Yang, J. B., & Lu, C. (2012). Predicting NBA championship by learning from history data. Proceedings of Artificial Intelligence and Machine Learning for Engineering Design, 
23. 丁一賢, & 陳牧言. (2006). 資料探勘. 滄海書局. 
24. 王彥智. (2012). 以 B-Spline 方法預測 NBA 冠軍, 
25. 江支璋. (2012). 美國職籃 nba 球隊主場優勢之分析. 明新學報, 38(1), 55-65. 
26. 宋威穎, 雷文谷, & 張涵筑. (2007). 職業運動主場優勢之研究-以美國國家籃球聯盟 (nba) 為例. 運動事業管理學術研討會論文集, (6), 73-85. 

27. 李鐘仁. (2015). 應用R語言於資料分析:從機器學習、資料探勘到巨量資料. 台北市: 松崗. 
28. 林宜劭. (2014). 運用資料採礦探討美國籃球聯盟勝負之關鍵因素. 
29. 黃文, & 王正林. (2015). 利用R語言打通大數據的經脈. 台北市: 佳魁資訊.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信