淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


系統識別號 U0002-2202201915170200
中文論文名稱 以混合式分群演算法探討學生學習成效之研究
英文論文名稱 Applying Hybrid(Clustering) Algorithm to Explore the Learning Effectiveness of Students
校院名稱 淡江大學
系所名稱(中) 資訊管理學系碩士班
系所名稱(英) Department of Information Management
學年度 107
學期 1
出版年 108
研究生中文姓名 余承軒
研究生英文姓名 Chen-Hsuan Yu
學號 605630481
學位類別 碩士
語文別 中文
口試日期 2019-01-03
論文頁數 54頁
口試委員 指導教授-劉艾華
委員-紀宗衡
委員-戴敏育
委員-劉艾華
中文關鍵字 校務研究  學習成效分析  機器學習  Scikit-learn套件  Embedding Projector  關聯規則 
英文關鍵字 Institutional Research  Learning Effectiveness Analysis  Machine Learning  Scikit-learn  Embedding Projector  Association Rule 
學科別分類
中文摘要 大數據資料探勘時代下,有效掌握學生學習成效成了近年校務研究的重要議題。本研究將校務研究中心提供的學生四年成績資料加以串接整理,並嘗試多種分群法後整理出P-H分群法,進而從中觀察學習成效。P-H分群融合分割式分群與階層式分群,從歐式距離與餘弦距離的不同定義,由成績在四年間的走向區分出不同特性族群間學生的差異,據以進行統計與關聯規則分析。本研究在視覺呈現上除了基本統計圖表亦使用Embedding Projector工具將資料做PCA降維,並能直觀地選取分群點的鄰居,以理解資料分佈之特性與性質。研究結果確立了不同群間學期成績的差異,並以社團與陸生為例顯示其在群間關聯規則的影響性。
英文摘要 Under the era of big data exploration, effective mastery of student learning has become an important topic in institutional research in recent years. In this study, the four-year student data provided by the Institutional Research Center are concatenated and attempting a variety of clustering methods, a hybrid clustering method, called P-H Clustering, is established The learning effectiveness can be observed from the P-H Clustering. The P-H Clustering adopts the combination of partition-based clustering and hierarchical clustering, based on the different definitions of Euclidean distance and cosine distance. It effectively separates the different patterns among students in different clusters for applying statistical analysis and association rules. In this study, in addition to the basic statistical charts, the Embedding Projector tool is used to reduce the dimension of the data in PCA and select the neighbor points of the cluster in visualization. The results of the study identified differences in semester grades between different clusters. It also showed the impact of associations rules between club students and mainland China's students.
論文目次 目錄

第一章 緒論 1
1.1研究背景 1
1.2研究動機 1
1.3研究目的 2
第二章 文獻探討 3
2.1校務研究 3
2.2學習成效 4
2.3距離定義及相似性 5
2.4機器學習 6
2.5群集分析 6
2.6 Embedding Projector 9
2.7 小結 10
第三章 研究方法 12
3.1研究方法及架構 12
3.2資料前處理 13
3.3敘述性統計 14
3.4 Embedding Projector的觀察、運用及呈現 18
3.5分群演算法最佳群數評估 21
3.6 視覺化結果 22
3.7 卡方檢定及關聯規則 22
第四章 實驗結果 24
4.1實驗工具 24
4.2參數調整 24
4.3分群演算法評估最佳群數之實驗結果 26
4.4視覺化實驗結果 33
4.5統計分析與關聯規則 33
4.6 學習成效進步與退步佔比 39
第五章 結論與建議 40
5.1結論 40
5.2學術研究貢獻與管理實務意涵 40
5.3建議 41
參考文獻 42
中文文獻 42
英文文獻 43
附錄 46


表目錄

表3 1 學期成績敘述性統計(發散、偏差) 15
表3-2 學期間成績之皮爾森相關性 16
表3-3 類別型資料統計表(居住地、入學高中、社團、入學方式) 17
表4-1 實驗環境 24
表4-2 演算法調整參數表 25
表4-3 各分群演算法評估群數結果表-輪廓法 26
表4-4 各分群演算法評估群數結果表-轉折判斷法 26
表4-5 社團申請與PH群之列聯表 34
表4-6 社團幹部與PH群之列聯表 35
表4 7 陸生與PH群之列聯表 36
表4-8 是否為社團幹部及是否有過社團申請之關聯規則 37
表4-9 是否有社團申請與P-H分群之關聯規則 38
表4-10 是否為社團幹部與P-H分群之關聯規則 38
表4-11 是否為陸生與P-H分群之關聯規則 39


圖目錄

圖3-1 研究架構圖 12
圖3-2 原始資料 13
圖3-3 新增調整分數欄位 14
圖3-4 前處理完資料 14
圖3-5 學生學期成績盒狀圖 15
圖3-6 學期間皮爾森相關性之矩陣散點圖 16
圖3-7 Embedding Projector(觀察) 18
圖3-8 Embedding Projector(歐式距離) 19
圖3-9 Embedding Projector(餘弦距離) 20
圖4 1 輪廓分析圖(2至4群) 27
圖4-2 k-means分群評估直條折現圖 28
圖4 3 k-means第一群之各學期成績盒狀圖 29
圖4 4 k-means第二群之各學期成績盒狀圖 29
圖4-5 k-means第三群之各學期成績盒狀圖 29
圖4-6 Agglomerative階層聚合圖 30
圖4-7 Agglomerative樹狀熱度圖 31
圖4-8 P-H分群各群各學期平均圖 32
圖4-9 Embedding Projector 視覺化呈現 33

參考文獻 中文文獻
[1] 何希慧(2015)大學建立校務研究體制之建議:以學習成效評估及提升機制為例。臺北市立大學教育行政與評鑑研究所副教授,台北市。
[2] 余民寧(2006)。影響學習成就因素的探討。教育資料與研究,73,11- 24。
[3] 李芊慧、吳裕益(2012)。影響大學生學習成效的個人及學校因素之研究。國立高雄師範大學教育學所,高雄市。
[4] 梁仁馨、單維彰(2009)。學測成績分群結果與微積分學習表現之間的關係。國立中央大學數學研究所,桃園市。
[5] 畢威寧(2013)。常態分配應用於大學生學期成績調整及排名策略的研究。科學與工程技術期刊,(9)2。13-18。
[6] 陳同孝、陳雨霖(2006)。結合K-means及階層式分群法之二階段分群演算法。國立臺中技術學院資訊科技與應用研究所,臺中市。
[7] 曾元顯(2015)。校務研究資料庫的建構與分析應用。當代教育研究季刊,(23)1,107-134。
[8] 黃宇翔、王品鈞、方志強(2017)。混合型資料集的k-means分群演算法。電子商務學報,(19)1。1-28。
[9] 蔡華華、張雅萍(2007)。學習動機對學習成效之影響-以領導行為為干擾變數。中華管理學報8(4): 1-18。
[10] 如何做好校務研究(2015)。取自:http://www.tair.tw/Media/Default/Workshop/1051031/如何做好校務研究-彭森明教授.pdf。
[11] 東吳大學 教學資源中心 教學科技推廣組(2015)。取自:http://www.tair.tw/Media/Default/Observation/大數據校務研究系統與資料模組-張彥之組長.pdf。

英文文獻
[12] Agrawal, R., Imielinski, T. & Swami, A.(1993) Mining associations between sets of items in large databases. In Proc. of the ACM SIGMOD Int'l Conference on Management of Data, pp. 207-216.
[13] Aranganayagi, S. and Thangavel, K.(2009) Improved K-Modes for Categorical Clustering Using Weighted Dissimilarity Measure. World Academy of Science, Engineering and Technology, Vol. 3, No. 3.
[14] Chen, B., Tai, P.C., Harrison, R., Pan, Yi. (2005). Novel Hybrid Hierarchical-K-means Clustering Method(H-K-means) for Microarray Analysis. In Proceedings of 2005 Computational Systems Bioinformatics Conference, Workshops and Poster Abstracts. IEEE, 2005, pp. 105-108.
[15] Chen, T. S., Lin, C. C., Chiu, Y. H. & Chen, R. C. (2006). Combined Density- and Constraint-based Algorithm for Clustering, In Proceedings of 2006 International Conference on Intelligent Systems and Knowledge Engineering.
[16] Darcan, O. N. & Badur, B. Y.(2012) Student Profiling on Academic
Performance Using Cluster Analysis. Journal of e-Learning & Higher Education.
[17] Ester, M., Kriegel, H. P., Sander, J., Xu, X.(1996) A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Institute for Computer Science, University of Munich, Germany.
[18] Glover, R. (2009). Strengthening institutional research and information technology capacity through achieving the dream: Principles and practices of student success.
[19] He, Z., Deng, S. & Xu, X.(2005) Improving k-modes algorithm considering frequencies of attribute values in mode, International Conference on Computational Intelligence and Security,LNAI 3801, pp. 157-162.
[20] Howard, R. D., McLaughlin, G. W., Knight, W. E., & Associates. (2012). The handbook of institutional research. San Francisco, CA: Jossey-Bass.
[21] Huang, Z. & Ng, M. K.(1999, August). A Fuzzy k-Modes Algorithm for Clustering Categorical Data. IEEE Transaction On Fuzzy Systems, Vol. 7, No. 4.
[22] Huang, Z.(1998) Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values. Data Mining and Knowledge Discovery 2, pp.283-304.
[23] Johnson, S. C.(1967) Hierarchical Clustering Schemes. PSYCI~OI~ETRIKA,Vol. 32, No. 3.
[24] MacQueen. J. B. (1967)Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. University of California Press: pp. 281-297.
[25] Pearson, K.(1900). X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science: pp. 157-175.
[26] Piatetsky-Shapiro, G.(1991), Discovery, analysis, and presentation of strong rules. Knowledge Discovery in Databases, pp. 229-248.
[27] Silverstein, C., Brin, S. and Motwani, R.(1998, January) Beyond Market Baskets: Generalizing Association Rules to Dependence Rules. Data Mining and Knowledge Discovery, Vol. 2, Issue 1, pp. 39-68.
[28] Smilkov, D., Thorat, N., Nicholson, C., Reif, E., Viégas, F. B. & Wattenberg, M.(2016) Embedding Projector: Interactive Visualization and Interpretation of Embeddings. NIPS 2016 Workshop on Interpretable Machine Learning in Complex Systems.
[29] Stoll, L., Bolam, R., Mcmahon, A., Wallace, M. & Thomas, S.(2006).Professional Learning Communities: A Review of the Literature, Journal of Educational Change.
[30] Ward, J. H., Jr. (1963), Hierarchical Grouping to Optimize an Objective Function, Journal of the American Statistical Association, 58, pp. 236-244.
[31] Webber K., Calderon, A., Nauffal, D., Saavedra, M., Bramblett, S., & Borden, V. (2015, May). IR in the world around us. Paper presented at the Forum of the Association for Institutional Research, Denver, CO.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2024-02-25公開。
  • 同意授權瀏覽/列印電子全文服務,於2024-02-25起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信