淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1509202016055100
中文論文名稱 基於人工智慧特徵處理技術之分析與研究
英文論文名稱 Analysis and research of feature processing technology based on Artificial Intelligence
校院名稱 淡江大學
系所名稱(中) 資訊工程學系碩士班
系所名稱(英) Department of Computer Science and Information Engineering
學年度 108
學期 2
出版年 109
研究生中文姓名 李觀豪
研究生英文姓名 Kuan-Hao Lee
學號 607410353
學位類別 碩士
語文別 中文
口試日期 2020-07-10
論文頁數 64頁
口試委員 指導教授-石貴平
委員-石貴平
委員-游國忠
委員-張志勇
中文關鍵字 特徵處理  特徵提取  特徵選擇  主成分分析(PCA)  線性判斷分析(LDA)  皮爾森相關係數(PCC)  向前選擇法(SFS)  向後消去法(SBS) 
英文關鍵字 Feature processing  Feature extraction  Feature selection  Principal Component Analysis(PCA)  Linear Discriminant Analysis(LDA)  Pearson correlation coefficient(PCC)  Sequential forward selection(SFS)  Sequential backward selection(SBS) 
學科別分類 學科別應用科學資訊工程
中文摘要 隨著網際網路、手機行動上網及社交軟體(如Facebook、Instagram等)的盛行,數據產生正在以前所未有的方式增加。然而,由於數據量龐大、格式多樣化、維度(變數)過多,對機器學習而言不利,過多的變量會妨礙模型找出預期之規律,而計算量較大、訓練時間長等問題,亦導致訓練後的結果產生不如預期的效果。因此在機器學習項目中,特徵處理是通常會先進行的前處理程序。本論文分析及比較現有的特徵處理相關技術,包括從原有的特徵建構新的特徵提取方法,如:主成分分析(PCA)與線性判斷分析(LDA),以及保留原始數據之訊息且做出篩選的特徵選擇方法,如:過濾法(Filter)與包裝法(wrapper),以期達到有效地利用特徵處理方法來實現高性能的學習算法。
本論文所分析及整理的多種特徵處理方法,更能了解特徵處理之流程內容,且提供使用者清晰的參數設定與運作模式,進一步提升資料之可用性。
英文摘要 With the popularity of Internet, mobile Internet and social software (such as Facebook, instagram, etc.), data generation is increasing in an unprecedented way. However, due to the large amount of data, the diversity of formats and the excessive number of dimensions (variables), it is disadvantageous for machine learning. Too many variables will hinder the model to find out the expected law, and the amount of calculation is large and the training time is long This paper analyzes and compares the existing feature processing technologies, including constructing new feature extraction methods from the original features, such as principal component analysis (PCA) and linear discriminant analysis (LDA), and preserving the original data In order to effectively use feature processing methods to achieve high-performance learning algorithm, we also make feature selection methods, such as filter and wrapper.
The various feature processing methods analyzed and sorted out in this paper can better understand the process content of feature processing and provide users with clear parameter setting and operation mode, so as to further improve the availability of data.
論文目次 目錄
目錄 IV
圖目錄 V
表目錄 VI
第一章、簡介 1
第二章、相關研究 5
第三章、特徵提取之技術分析 7
3-1 主成分分析 (PCA) 7
3-2 線性判斷分析(LDA) 14
3-3 核主成分分析 (KPCA) 21
第四章、特徵選擇之技術分析 26
4-1 過濾法(Filter)技術分析 27
4-2 包裝法(Wrapper)技術分析 32
第五章、實驗分析 38
5-1 特徵提取技術實作 38
5-2 特徵選擇技術實作 39
第六章、結論 44
參考文獻 45
附錄-英文論文 46

圖目錄
圖 1資料的變異數分布圖 8
圖 2數據點座標 10
圖 3原始數據投影至低維度空間圖 13
圖 4原始特徵數據點示意圖 15
圖 5經過投影後的可分離性 15
圖 6兩個類別的原始數據圖 16
圖 7 平均數經投影示意圖 16
圖 8平均值向量投影示意圖 17
圖 9 類別內散佈示意圖 18
圖 10 投影向量分類圖 20
圖 11非線性數據圖 21
圖 12 核主成份分析(KPCA)概念圖 22
圖 13特徵選擇流程圖 26
圖 14過濾法流程圖 27
圖 15去除低相關程度的變數 31
圖 16 包裝法流程圖 33
圖 17向前選擇法搜索過程圖 34
圖 18向前選擇法選取過程圖 35
圖 19向後消去法搜索過程圖 36
圖 20向後消去法刪除過程圖 37
圖 21人臉辨識資料集準確率 39
圖 22 特徵與目標的關係圖 41
圖 23過濾低相關之特徵 41
圖 24過濾法之準確率以及擬合速度 42
圖 25向前選擇法(SFS)準確率 42
圖 26向後消去法(SBS)準確率 43
圖 27分類葡萄酒資料集準確率 43

表目錄

表 1主成份分析(PCA)優缺點 14
表 2線性判斷分析(LDA)優缺點 21
表 3常用核函數 24
表 4核主成份分析(KPCA)優缺點 25
表 5分析抽菸次數與上廁所次數關係表 28
表 6抽菸頻率與得肺癌機率表 30
表 7 上廁所頻率與得肺癌機率表 30
表 8過濾法優缺點 32
表 9包裝法優缺點 37
表 10特徵提取技術比較表 39
表 11葡萄酒數據集 40
表 12過濾法與包裝法比較表 43
參考文獻 [1]R. Ramachandran, G. Ravichandran and A. Raveendran, "Evaluation of dimensionality reduction techniques for big data," 2020 Fourth International Conference on Computing Methodologies and Communication (ICCMC), Erode, India, March 2020, pp. 226-231
[2]Sushma Niket Borade and R. P. Adgaonkar, "Comparative analysis of PCA and LDA," 2011 International Conference on Business, Engineering and Industrial Applications, Kuala Lumpur, Malaysia, June 2011, pp. 203-206
[3]Jinghua Wang, Binglei Xie, Jiajie Xu and Haifen Chen, "A fast KPCA-based nonlinear feature extraction method," 2009 Asia-Pacific Conference on Computational Intelligence and Industrial Applications (PACIIA), Wuhan, Nov 2009, pp. 232-235
[4]Aparna U.R. and S. Paul, "Feature selection and extraction in data mining," 2016 Online International Conference on Green Engineering and Technologies (IC-GET), Coimbatore, Nov 2016, pp. 1-3
[5]M. S. S. Sumi and A. Narayanan, "Improving classification accuracy using combined filter+wrapper feature selection technique," 2019 IEEE International Conference on Electrical, Computer and Communication Technologies (ICECCT), Coimbatore, India, Feb 2019, pp. 1-6
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2020-09-16公開。
  • 同意授權瀏覽/列印電子全文服務,於2020-09-16起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2487 或 來信