§ 瀏覽學位論文書目資料
  
系統識別號 U0002-3007201914040400
DOI 10.6846/TKU.2019.01017
論文名稱(中文) 音樂曲風分類:以支持向量機與卷積神經網路分析音頻訊號
論文名稱(英文) Music Genre Classification:Analyzing Audio Signals with Support Vector Machine and Convolutional Neural Network
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 大數據分析與商業智慧碩士學位學程
系所名稱(英文) Master's Program In Big Data Analytics and Business Intelligence
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 107
學期 2
出版年 108
研究生(中文) 陳柏宇
研究生(英文) Po-Yu Chen
學號 606890100
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2019-07-03
論文頁數 49頁
口試委員 指導教授 - 陳景祥
共同指導教授 - 鄧文舜
委員 - 李百靈
委員 - 何宗武
關鍵字(中) 梅爾頻率倒頻譜係數
資料降維
隨機投影法
支持向量機
卷積神經網路
關鍵字(英) MFCC
Data dimensional reduction
Random projection
Support vector machine
Convolutional neural network
第三語言關鍵字
學科別分類
中文摘要
當今數位音樂越來越流行,人們每天可以簡單地透過電腦或智慧型手機的音樂播放軟體等即時性地享受音樂,然而龐大的音樂檔案數量卻也同時對管理者在整理、歸納檔案上產生相當程度的困擾。本篇研究旨在運用當今熱門之機器學習與深度學習等資料分析方法協助管理者從大量的音樂資料中快速的有效找出符合特定曲風的音樂。
本篇研究以R語言實作分析,從音訊檔案讀取開始,針對音頻訊號以常見之梅爾頻率倒頻譜係數(MFCC)進行特徵萃取,完成後先運用隨機投影法之降維方法對資料進行維度縮減,最後再送入分類器執行建模分析,並同時比較資料降維前後對支持向量機(SVM)與卷積神經網路(CNN)預測成效之影響。本研究顯示,SVM在運算時間與分類預測正確率之表現皆優於深度學習CNN模型。另一方面,研究結果亦顯示隨機投影法在音頻資料上的維度縮減有不錯的表現。
英文摘要
Digital music is becoming more and more popular today. People can enjoy music instantly through music playing software in the computer or smart phone. However, the number of music files is often too large to organize or summarize. This research aims to use data analysis methods such as popular machine learning and deep learning to help managers quickly and effectively find out music that meets certain genres from a large number of music data.
This study uses R language to analyze the data. Feature extraction is performed on the audio signal importing with the common Mel-frequency Cepstral Coefficient (MFCC). After the importing, the music data is reduced by the dimensionality reduction method such as the Random Projection method, then finally sent to the classifier to perform modeling analysis. This study compare the impact of Support Vector Machine (SVM) and Convolutional Neural Network (CNN) prediction before and after data reduction. We show that SVM performs better than the deep learning CNN model in terms of computation time and classification prediction accuracy. On the other hand, the results of the study also show that the random projection method for dimensional reduction on the audio data has a good performance.
第三語言摘要
論文目次
目次
誌謝	II
摘要	III
ABSTRACT	IV
目次	VI
圖目錄	VIII
第一章 緒論	1
1.1 研究動機	1
1.2 研究目的	2
1.3 研究架構	3
第二章 基礎理論介紹與相關文獻探討	4
2.1 音訊編碼過程與檔案格式介紹	4
2.1.1 脈衝(波)編碼調變(PCM)	5
2.1.2 Waveform Audio File Format(WAVE)	5
2.1.3 Moving Picture Experts Group Audio Layer Ⅲ (MPEG-Audio Layer 3)	5
2.1.4 Musical Instrument Digital Interface	6
2.2 文獻探討	7
2.2.1 淺談音樂分析	7
2.2.2 檔案編碼格式選擇	8
2.2.3 音訊特徵萃取	9
2.2.4 資料維度縮減	10
2.2.5 分類模型	11
2.3 梅爾頻率倒頻譜係數(MEL-SCALE FREQUENCY CEPSTRAL COEFFICIENTS, MFCC)	11
2.3.1 預強調(Pre-emphasis)	12
2.3.2 加視窗(Windowing)與短時段傅立葉轉換(Short-time Fourier Transform, STFT)	13
2.3.3 梅爾(刻度)頻率(Mel-scale Frequency)	15
2.3.4 將對數能量作離散餘弦轉換(DCT)	17
2.3.5 MFCC(s)為n個梅爾頻率倒頻譜(Mel-scale Frequency Cepstral, MFC)	17
2.4 隨機投影法(RANDOM PROJECTION)	18
2.4.1 Johnson–Lindenstrauss lemma(J-L引理)	18
2.4.2 投影矩陣	19
2.5 支持向量機(SUPPORT VECTOR MACHINE, SVM)	20
2.5.1 最大間隔分類器(maximum margin classifier)	20
2.5.2 核函數方法(Kernel Method)與核函數(Kernel Function)	20
2.6 卷積神經網路(CONVOLUTIONAL NEURAL NETWORK, CNN)	24
第三章 方法實作	26
3.1 基礎環境 / 數據集介紹	27
3.2 資料處理實作	28
3.2.1 檔案讀取 / 編碼檢查	28
3.2.2 特徵萃取	29
3.2.3 資料維度縮減	30
3.3 CNN架構說明	32
第四章 研究結果分析	34
4.1 SVM分類器之表現	34
4.1.1 資料降維前	34
4.1.2 資料降維後	35
4.2 CNN分類器之表現	36
4.2.1 資料降維前	36
4.2.2 資料降維後	38
4.3 綜合比較分析	40
第五章 結論	44
5.1 研究發現	44
5.2 建議與未來發展	45
參考文獻	46


圖目錄
圖1.1:本次研究之架構圖………………………………………………………3
圖2.1:類比訊號轉數位音訊編碼之處理流程…………………………………4
圖2.2:完整的表示自C4(中央C)起向上八度內的半音音階之圖表(圖片來源:維基百科)……………………………………………………………………6
圖2.3:根據對音樂理解的透析程度所建立之原碼數位音頻訊號的音訊特徵之特性…………………………………………………………………………………8
圖2.4:梅爾頻率倒頻譜係數(MFCCs)計算步驟(以R語言“tuneR”套件之 melfcc 函數為範例)……………………………………………………………12
圖2.5:矩形窗與漢明窗二者之差異…………………………………………14
圖2.6:加視窗(漢明窗)之算法………………………………………………14
圖2.7:梅爾(刻度)頻率濾波器組……………………………………………16
圖2.8:線性核(Linear kernel)分類結果之二維平面圖…………………22
圖2.9:多項式核(Polynomial kernel)分類結果之二維平面圖…………23
圖2.10:高斯核(Radial basis kernel)分類結果之二維平面圖………24
圖2.11:卷積神經網路(CNN)運算步驟示意圖……………………………25
圖3.1:本次研究之分析流程圖………………………………………………26
圖3.2:CNN與SVM二種資料結構之差異……………………………………30
圖3.3:CNN架構說明…………………………………………………………32
圖3.4:每隔2個元素進行的2×2最大池化…………………………………33
圖3.5:每隔2個元素進行的2×2加總池化…………………………………33
圖4.1:SVM(降維前)判定結果的混淆矩陣……………………………………35
圖4.2:SVM(降維後)判定結果的混淆矩陣……………………………………36
圖4.3:SVM運算時間之比較圖………………………………………………41
圖4.4:CNN運算時間之比較圖………………………………………………41
圖4.5:SVM預測正確率之比較圖……………………………………………42
圖4.6:CNN預測正確率之比較圖……………………………………………42
圖4.7:整體數據綜合比較圖…………………………………………………43
參考文獻
參考文獻
一、英文文獻:
1.	Z. Fu, G. Lu, K. Ting, and D. Zhang, “A survey of audio-based music classification and annotation” IEEE Transactions on Multimedia, vol. 13, pp. 303-319, Apr. 2011.
2.	D. Chathuranga and L. Jayaratne, “Musical genre classification using ensemble of classifiers”, in IEEE Fourth Int. Conf. on Computational Intelligence, Modelling and Simulation(CIMSim2012), (Kuantan, Pahang, Malaysia), pp. 237-242, Sep.25-27 2012.
3.	H. Shih, Shrikanth S. Narayanan,“Automatic Main Melody Extraction from Midi Files with a Modified Lempel-Ziv Algorithm.”,  Proceedings of 2001 International Symposium on Intelligent Multimedia, Video and Speech Processing, (Hong Kong), pp. 9-12, 2001.
4.	Zhao Fang, Wu Yadong,“Melody Extraction Method from Polyphonic Midi Based on Melodic Features.”, Compute Engineering, Publishing House of Journal of Computer Engineering, pp. 165-167, (Beijing, China), 2007.
5.	Bin Cui, Jialie Shen, Gao Cong, Heng Tao Shen and Cui Yu, “Exploring Composite Acoustic Features for Efficient Music Similarity Query. ”, In Proc. of the Multimedia, (Santa Barbara, California, USA), October 23-27, 2006.
6.	Y.H. Tseng, “Music Indexing and Retrieval for Digital Music Libraries.”, Proceedings of The First International Workshop on Intelligent Multimedia Computing and Networking (in The Fifth Joint Conference on Information Sciences), (Atlantic City, NJ USA), Vol. 2, pp. 533-536, Feb. 27 to Mar. 3, 2000.
7.	J. Foote, Matthew Cooper,‘Unjung Nam,“Audio Retrieval by Rhythmic Similarity.”, In Proc. of Institute Research Coordination Acoustics Music (IRCAM) , 2002.
8.	D. Chathuranga, L. Jayaratne,“Automatic Music Genre Classification of Audio Signals with Machine Learning Approach”, GSTF Journal on Computing Vol.3 No.2, July 2013.
9.	M. Cooper and J. Foote, “Automatic Music Summarization via Similarity Analysis.”, In Proc. Int. Conf. Music Information Retrieval, 2002.
10.	M. Cooper and J. Foote, “Summarizing Popular Music via Structural Similarity Analysis.”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2003.
11.	P. Viszlay, M. Pleva, J. Juhár,“Dimension Reduction with Principal Component Analysis Applied to Speech Supervectors”, Journal of Electrical and Electronics Engineering Vol. 4 No.1, 2011.
12.	Mohd Azha Mohd Saleh, Noor Salwani Ibrahim, Dzati Athiar Ramli, “Data reduction on MFCC features based on kernel PCA for speaker verification system”, WALIA journal 30(S2), pp.56-62, 2014.
13.	Uwe Ligges …,“Help Document of Package‘tuneR’”, melfcc function, Jul. 2018.
14.	http://www.ee.columbia.edu/~dpwe/LabROSA/doc/HTKBook21, 5.4 Filterbank Analysis
15.	Ella Bingham and Heikki Mannila,“Random projection in dimensionality reduction: Applications to image and text data”, On leave at Nokia Reserch Center, Jul. 2001.
16.	Sanjoy Dasgupta,“Experiments with Random Projection”, Appears in Proceedings of the Sixteenth Conference on Uncertainty in Artificial Intelligence (UAI2000), Jan. 2013.
17.	Piotr Iwo Wójcik,“Random Projection in Deep Neural Networks”, AGH University of Science and Technology in Kraków, Chapter 3 Random projection pp.26, Dec. 2018.
18.	Piotr Iwo Wójcik,“Random Projection in Deep Neural Networks”, AGH University of Science and Technology in Kraków, Chapter 3 Random projection pp.27, Dec. 2018.
二、中文文獻:
19.	葉士房,論音樂與數學,http://ntuartmusic.blogspot.com音樂的文化繁花,12/20/2013。
20.	王小川,語音訊號處理,全華圖書出版,2007年4月二版一刷,頁5-10。
21.	林芷伊,“基於多重結構分析聆聽情緒相似度之音樂資訊檢索”,國立交通大學工學院聲音與音樂創意科技碩士學位學程,碩士論文,民國一Ο一年六月,頁12。
22.	pluskid , http://blog.pluskid.org/?p=39 , 漫谈 Clustering (3) : Gaussian Mixture Model , Feb. 2009.。
23.	林芷伊,“基於多重結構分析聆聽情緒相似度之音樂資訊檢索”,國立交通大學工學院聲音與音樂創意科技碩士學位學程,碩士論文,民國一Ο一年六月,頁30。
24.	竇琬琁,“A Study of Sparse Random Projection”,國立中正大學數學系應用數學碩士班,碩士論文,民國一Ο七年六月,頁16。
25.	許孟弘,“利用隨機投影做維度縮減以及探討高斯混合模型”,國立臺灣大學理學院數學系,碩士論文,民國一Ο七年一月,頁8。
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信