§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1509202016055100
DOI 10.6846/TKU.2020.00434
論文名稱(中文) 基於人工智慧特徵處理技術之分析與研究
論文名稱(英文) Analysis and research of feature processing technology based on Artificial Intelligence
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 108
學期 2
出版年 109
研究生(中文) 李觀豪
研究生(英文) Kuan-Hao Lee
學號 607410353
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2020-07-10
論文頁數 64頁
口試委員 指導教授 - 石貴平(kpshih@mail.tku.edu.tw)
委員 - 石貴平(kpshih@mail.tku.edu.tw)
委員 - 游國忠
委員 - 張志勇
關鍵字(中) 特徵處理
特徵提取
特徵選擇
主成分分析(PCA)
線性判斷分析(LDA)
皮爾森相關係數(PCC)
向前選擇法(SFS)
向後消去法(SBS)
關鍵字(英) Feature processing
Feature extraction
Feature selection
Principal Component Analysis(PCA)
Linear Discriminant Analysis(LDA)
Pearson correlation coefficient(PCC)
Sequential forward selection(SFS)
Sequential backward selection(SBS)
第三語言關鍵字
學科別分類
中文摘要
隨著網際網路、手機行動上網及社交軟體(如Facebook、Instagram等)的盛行,數據產生正在以前所未有的方式增加。然而,由於數據量龐大、格式多樣化、維度(變數)過多,對機器學習而言不利,過多的變量會妨礙模型找出預期之規律,而計算量較大、訓練時間長等問題,亦導致訓練後的結果產生不如預期的效果。因此在機器學習項目中,特徵處理是通常會先進行的前處理程序。本論文分析及比較現有的特徵處理相關技術,包括從原有的特徵建構新的特徵提取方法,如:主成分分析(PCA)與線性判斷分析(LDA),以及保留原始數據之訊息且做出篩選的特徵選擇方法,如:過濾法(Filter)與包裝法(wrapper),以期達到有效地利用特徵處理方法來實現高性能的學習算法。
本論文所分析及整理的多種特徵處理方法,更能了解特徵處理之流程內容,且提供使用者清晰的參數設定與運作模式,進一步提升資料之可用性。
英文摘要
With the popularity of Internet, mobile Internet and social software (such as Facebook, instagram, etc.), data generation is increasing in an unprecedented way. However, due to the large amount of data, the diversity of formats and the excessive number of dimensions (variables), it is disadvantageous for machine learning. Too many variables will hinder the model to find out the expected law, and the amount of calculation is large and the training time is long This paper analyzes and compares the existing feature processing technologies, including constructing new feature extraction methods from the original features, such as principal component analysis (PCA) and linear discriminant analysis (LDA), and preserving the original data In order to effectively use feature processing methods to achieve high-performance learning algorithm, we also make feature selection methods, such as filter and wrapper.
The various feature processing methods analyzed and sorted out in this paper can better understand the process content of feature processing and provide users with clear parameter setting and operation mode, so as to further improve the availability of data.
第三語言摘要
論文目次
目錄
目錄	IV
圖目錄	V
表目錄	VI
第一章、簡介	1
第二章、相關研究	5
第三章、特徵提取之技術分析	7
3-1 主成分分析 (PCA)	7
3-2 線性判斷分析(LDA)	14
3-3 核主成分分析 (KPCA)	21
第四章、特徵選擇之技術分析	26
4-1 過濾法(Filter)技術分析	27
4-2 包裝法(Wrapper)技術分析	32
第五章、實驗分析	38
5-1 特徵提取技術實作	38
5-2 特徵選擇技術實作	39
第六章、結論	44
參考文獻	45
附錄-英文論文	46

圖目錄
圖 1資料的變異數分布圖	8
圖 2數據點座標	10
圖 3原始數據投影至低維度空間圖	13
圖 4原始特徵數據點示意圖	15
圖 5經過投影後的可分離性	15
圖 6兩個類別的原始數據圖	16
圖 7 平均數經投影示意圖	16
圖 8平均值向量投影示意圖	17
圖 9 類別內散佈示意圖	18
圖 10 投影向量分類圖	20
圖 11非線性數據圖	21
圖 12 核主成份分析(KPCA)概念圖	22
圖 13特徵選擇流程圖	26
圖 14過濾法流程圖	27
圖 15去除低相關程度的變數	31
圖 16 包裝法流程圖	33
圖 17向前選擇法搜索過程圖	34
圖 18向前選擇法選取過程圖	35
圖 19向後消去法搜索過程圖	36
圖 20向後消去法刪除過程圖	37
圖 21人臉辨識資料集準確率	39
圖 22 特徵與目標的關係圖	41
圖 23過濾低相關之特徵	41
圖 24過濾法之準確率以及擬合速度	42
圖 25向前選擇法(SFS)準確率	42
圖 26向後消去法(SBS)準確率	43
圖 27分類葡萄酒資料集準確率	43

表目錄

表 1主成份分析(PCA)優缺點	14
表 2線性判斷分析(LDA)優缺點	21
表 3常用核函數	24
表 4核主成份分析(KPCA)優缺點	25
表 5分析抽菸次數與上廁所次數關係表	28
表 6抽菸頻率與得肺癌機率表	30
表 7 上廁所頻率與得肺癌機率表	30
表 8過濾法優缺點	32
表 9包裝法優缺點	37
表 10特徵提取技術比較表	39
表 11葡萄酒數據集	40
表 12過濾法與包裝法比較表	43
參考文獻
[1]R. Ramachandran, G. Ravichandran and A. Raveendran, "Evaluation of dimensionality reduction techniques for big data," 2020 Fourth International Conference on Computing Methodologies and Communication (ICCMC), Erode, India, March 2020, pp. 226-231
[2]Sushma Niket Borade and R. P. Adgaonkar, "Comparative analysis of PCA and LDA," 2011 International Conference on Business, Engineering and Industrial Applications, Kuala Lumpur, Malaysia, June 2011, pp. 203-206
[3]Jinghua Wang, Binglei Xie, Jiajie Xu and Haifen Chen, "A fast KPCA-based nonlinear feature extraction method," 2009 Asia-Pacific Conference on Computational Intelligence and Industrial Applications (PACIIA), Wuhan, Nov 2009, pp. 232-235
[4]Aparna U.R. and S. Paul, "Feature selection and extraction in data mining," 2016 Online International Conference on Green Engineering and Technologies (IC-GET), Coimbatore, Nov 2016, pp. 1-3
[5]M. S. S. Sumi and A. Narayanan, "Improving classification accuracy using combined filter+wrapper feature selection technique," 2019 IEEE International Conference on Electrical, Computer and Communication Technologies (ICECCT), Coimbatore, India, Feb 2019, pp. 1-6
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權予資料庫廠商
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信