淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2508202014113500
中文論文名稱 以生成對抗網路為基礎之音樂風格判斷研究
英文論文名稱 A Study of Generative Adversarial Network based Musical Style Assessment
校院名稱 淡江大學
系所名稱(中) 資訊工程學系碩士班
系所名稱(英) Department of Computer Science and Information Engineering
學年度 108
學期 2
出版年 109
研究生中文姓名 黃浩軒
研究生英文姓名 Hao-Hsuan Huang
學號 607410601
學位類別 碩士
語文別 中文
第二語文別 英文
口試日期 2020-07-15
論文頁數 26頁
口試委員 指導教授-陳建彰
委員-楊權輝
委員-林其誼
委員-陳建彰
中文關鍵字 生成對抗網路  音樂風格評估  音樂生成  爵士樂  鄉村音樂 
英文關鍵字 GAN  Music Style Assessment  Music generation  Country  Jazz 
學科別分類 學科別應用科學資訊工程
中文摘要 特定曲風的音樂生成是一項很重要的研究課題,對音樂廣泛使用上的需求,有很大的幫助。近年來,由於人工智慧技術的快速演進,多位研究者將人工智慧技術應用至音樂生成上,獲得不錯的成果。然而,所生成的音樂在評分上,常使用人工盲測方式進行聆聽與判斷,如此一來,除了帶有主觀感受與非音樂專業外,也容易獲得不穩定的判斷結果。 本研究提出使用生成對抗網路判斷評估樂曲風格的方法,首先由Kaggle的爵士樂資料集訓練對抗網路,再由GTZAN的爵士樂與搖滾樂資料集,依其在已訓練完成的對抗網路中,產生多次迭代後的收斂與梅爾頻譜圖的MSE值,判斷其樂曲風格。實驗結果顯示,爵士樂的收斂與MSE值預期結果如預期所示,而搖滾樂也因風格有所差距使得MSE值與模型之間差異較大。
英文摘要 Music generation is an important research topic for wide requirement on arts. Recently, artificial intelligent techniques are adopted to generate music because of their high efficiency on analyzing and synthesizing data. In general, blind test is popularly used to assess the music style. However, the results of blind test highly depend on the testers. Therefore, an objective assessment method merits our study. In this study, we propose a GAN-based music style assessment. The GAN network is first trained by the Jazz dataset from Kaggle, in which music is translated to Mel-Frequency images. The Jazz or Rock music in GTZAN dataset is then applied to synthesis procedure of GAN for generating the Jazz style music. The difference after some iterations determines the style and degree of the input music. Experimental results show that the proposed scheme can distinguish Rock from Jazz.
論文目次 目錄
第一章、緒論 1
1.1研究背景 1
1.2研究動機 1
1.3研究目的 1
1.4研究問題 2
1.5研究架構 2
第二章、文獻探討 3
2.1生成對抗網路 3
2.2 Coconet與Bach Doodle 5
2.3優化函數(Optimizer) 6
2.4 Librosa 7
第三章、實驗與研究方法 9
3.1資料收集 9
3.2資料預處理(Data preprocessing) 9
3.3資料調整 12
3.4生成對抗網路(GAN) 13
3.5資料分割 13
3.6研究流程圖 13
第四章、實驗與分析結果 15
4.1鄉村音樂與爵士樂的實驗 15
4.2 Disco與爵士樂的實驗 16
4.3藍調與爵士樂的實驗 17
4.4爵士樂與其他音樂的實驗總結 17
第五章、結論與建議 20
結論與研究建議 20
參考文獻 21
英文論文 23

圖目錄
圖 1 對抗生成網路 3
圖 2 Google Bach Doodle 6
圖 3 Optimizer比較圖 7
圖 4 梅爾頻譜圖 8
圖 5 色度圖 8
圖 6 梅爾頻譜圖(a)(b)(c)(d)(e)(f)(g) 8
圖 7 梅爾頻譜圖 9
圖 8 經過處理後的梅爾頻譜圖(a)(b)(c)(d)(e) 10
圖 9 不合適的梅爾頻譜圖(a)(b) 11
圖 10 經過轉換的梅爾頻譜圖(a)(b)(c)(d)(e)(f) 12
圖 11 研究架構圖 14
圖 12 爵士樂與鄉村音樂MSE圖 16
圖 13 爵士樂與Disco MSE圖 16
圖 14 爵士樂與藍調MSE圖 17
圖 15 四種音樂的平均MSE圖 18
圖 16 鄉村音樂與爵士樂最佳與最差的預測情況 18
圖 17 Disco與爵士樂最佳與最差的預測情況 19
圖 18 藍調與爵士樂最佳與最差的預測情況 19

表目錄
表 1 訓練集與測試集 11
參考文獻 [1] L. Chkhetiani, L. Bejanidze, “SE-MelGAN – Speaker Agnostic Rapid Speech Enhancement”, arXiv:2006.07637v1, 2020.
[2] D. Ericsson, A. Östberg, E.L. Zec, J. Martinsson, O. Mogren, “Adversarial representation learning for private speech generation”, arXiv:2006.09114v2, 2020.
[3] I.J. Goodfellow, J.P. Abadie, M. Mirza, B. Xu, D.W. Farley, S. Ozair, A. Courville, Y. Bengio, Proceedings of the 27th International Conference on Neural Information Processing Systems, vol.2, p.2672-2680, “Generative Adversarial Networks”, 2014.
[4] Z. He, W. Zuo, M. Kan, S. Shan, X. Chen, “AttGAN: Facial Attribute Editing by Only Changing What You Want”, IEEE Transactions on image processing, vol.28, p.5464-5478, 2019.
[5] C.Z.A. Huang, C. Hawthorne, A. Roberts, M. Dinculescu, J. Wexler, L. Hong, J. Howcroft, “The Bach Doodle: Approachable music composition with machine learning at scale”, Proceedings of the 20th ISMIR Conference, Delft, Netherlands, November 4-8, 2019.
[6] T. Kim, M. Cha, H. Kim, J.K. Lee, J. Kim, “Learning to Discover Cross-Domain Relations with Generative Adversarial Networks”, Proceedings of the 34th International Conference on Machine Learning, PMLR 70:1857-1865, 2017.
[7] D.P. Kingma, J. Ba, “Adam: A Method For Stochastic Optimization”, Proceedings of the 3rd International Conference on Learning Representations, 2015.
[8] O. Kupyn, V. Budzan, M. Mykhailych, D. Mishkin, J. Matas, “DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks”, IEEE Conference on Computer Vision and Pattern Recognition, 2018
[9] Z. Liu, Y. Wu, L. Li, C. Zhang, B. Wu, “Joint Face Completion and Super-resolution using Multi-scale Feature Relation Learning”, arXiv:2003.00255v1, 2020.
[10] B. McFee, C. Raffel, D. Liang, D.P.W. Ellis, M. McVicar, E. Battenberg, O. Nieto, “librosa: Audio and Music Signal Analysis in Python”, Proceedings of the 14th python in science conference, 2015.
[11] M. Pasini, “MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms” , arXiv:1910.03713, 2019.
[12] N. Ruiz, S. A. Bargal, S. Sclaroff, “Protecting Against Image Deepfakes by Leaking Universal Perturbations from Black-Box Neural Networks”, arXiv:2006.06493v1, 2020.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2020-09-03公開。
  • 同意授權瀏覽/列印電子全文服務,於2020-09-03起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2487 或 來信