§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2508202014113500
DOI 10.6846/TKU.2020.00744
論文名稱(中文) 以生成對抗網路為基礎之音樂風格判斷研究
論文名稱(英文) A Study of Generative Adversarial Network based Musical Style Assessment
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 108
學期 2
出版年 109
研究生(中文) 黃浩軒
研究生(英文) Hao-Hsuan Huang
學號 607410601
學位類別 碩士
語言別 繁體中文
第二語言別 英文
口試日期 2020-07-15
論文頁數 26頁
口試委員 指導教授 - 陳建彰(ccchen34@mail.tku.edu.tw)
委員 - 楊權輝(chyang@hcu.edu.tw)
委員 - 林其誼(chiyilin@mail.tku.edu.tw)
委員 - 陳建彰(ccchen34@mail.tku.edu.tw)
關鍵字(中) 生成對抗網路
音樂風格評估
音樂生成
爵士樂
鄉村音樂
關鍵字(英) GAN
Music Style Assessment
Music generation
Country
Jazz
第三語言關鍵字
學科別分類
中文摘要
特定曲風的音樂生成是一項很重要的研究課題,對音樂廣泛使用上的需求,有很大的幫助。近年來,由於人工智慧技術的快速演進,多位研究者將人工智慧技術應用至音樂生成上,獲得不錯的成果。然而,所生成的音樂在評分上,常使用人工盲測方式進行聆聽與判斷,如此一來,除了帶有主觀感受與非音樂專業外,也容易獲得不穩定的判斷結果。 本研究提出使用生成對抗網路判斷評估樂曲風格的方法,首先由Kaggle的爵士樂資料集訓練對抗網路,再由GTZAN的爵士樂與搖滾樂資料集,依其在已訓練完成的對抗網路中,產生多次迭代後的收斂與梅爾頻譜圖的MSE值,判斷其樂曲風格。實驗結果顯示,爵士樂的收斂與MSE值預期結果如預期所示,而搖滾樂也因風格有所差距使得MSE值與模型之間差異較大。
英文摘要
Music generation is an important research topic for wide requirement on arts. Recently, artificial intelligent techniques are adopted to generate music because of their high efficiency on analyzing and synthesizing data. In general, blind test is popularly used to assess the music style. However, the results of blind test highly depend on the testers. Therefore, an objective assessment method merits our study. In this study, we propose a GAN-based music style assessment. The GAN network is first trained by the Jazz dataset from Kaggle, in which music is translated to Mel-Frequency images. The Jazz or Rock music in GTZAN dataset is then applied to synthesis procedure of GAN for generating the Jazz style music. The difference after some iterations determines the style and degree of the input music. Experimental results show that the proposed scheme can distinguish Rock from Jazz.
第三語言摘要
論文目次
目錄
第一章、緒論	1
  1.1研究背景	1
  1.2研究動機	1
  1.3研究目的	1
  1.4研究問題	2
  1.5研究架構	2
第二章、文獻探討	3
  2.1生成對抗網路	3
  2.2 Coconet與Bach Doodle	5
  2.3優化函數(Optimizer)	6
  2.4 Librosa	7
第三章、實驗與研究方法	9
  3.1資料收集	9
  3.2資料預處理(Data preprocessing)	9
  3.3資料調整	12
  3.4生成對抗網路(GAN)	13
  3.5資料分割	13
  3.6研究流程圖	13
第四章、實驗與分析結果	15
  4.1鄉村音樂與爵士樂的實驗	15
  4.2 Disco與爵士樂的實驗	16
  4.3藍調與爵士樂的實驗	17
  4.4爵士樂與其他音樂的實驗總結	17
第五章、結論與建議	20
  結論與研究建議	20
參考文獻	21
英文論文	23

圖目錄
圖  1   對抗生成網路	3
圖  2   Google Bach Doodle	6
圖  3   Optimizer比較圖	7
圖  4   梅爾頻譜圖	8
圖  5   色度圖	8
圖  6   梅爾頻譜圖(a)(b)(c)(d)(e)(f)(g)	8
圖  7   梅爾頻譜圖	9
圖  8   經過處理後的梅爾頻譜圖(a)(b)(c)(d)(e)	10
圖  9   不合適的梅爾頻譜圖(a)(b)	11
圖  10  經過轉換的梅爾頻譜圖(a)(b)(c)(d)(e)(f)	12
圖  11  研究架構圖	14
圖  12  爵士樂與鄉村音樂MSE圖	16
圖  13  爵士樂與Disco MSE圖	16
圖  14  爵士樂與藍調MSE圖	17
圖  15  四種音樂的平均MSE圖	18
圖  16  鄉村音樂與爵士樂最佳與最差的預測情況	18
圖  17  Disco與爵士樂最佳與最差的預測情況	19
圖  18  藍調與爵士樂最佳與最差的預測情況	19

表目錄
表  1   訓練集與測試集	11
參考文獻
[1] 	L. Chkhetiani, L. Bejanidze, “SE-MelGAN – Speaker Agnostic Rapid Speech Enhancement”, arXiv:2006.07637v1, 2020. 
[2] 	D. Ericsson, A. Östberg, E.L. Zec, J. Martinsson, O. Mogren, “Adversarial representation learning for private speech generation”, arXiv:2006.09114v2, 2020. 
[3]	I.J. Goodfellow, J.P. Abadie, M. Mirza, B. Xu, D.W. Farley, S. Ozair, A. Courville, Y. Bengio, Proceedings of the 27th International Conference on Neural Information Processing Systems, vol.2, p.2672-2680, “Generative Adversarial Networks”, 2014.
[4]	Z. He, W. Zuo, M. Kan, S. Shan, X. Chen, “AttGAN: Facial Attribute Editing by Only Changing What You Want”, IEEE Transactions on image processing, vol.28, p.5464-5478, 2019. 
[5]	C.Z.A. Huang, C. Hawthorne, A. Roberts, M. Dinculescu, J. Wexler, L. Hong, J. Howcroft, “The Bach Doodle: Approachable music composition with machine learning at scale”, Proceedings of the 20th ISMIR Conference, Delft, Netherlands, November 4-8, 2019.
[6]	T. Kim, M. Cha, H. Kim, J.K. Lee, J. Kim, “Learning to Discover Cross-Domain Relations with Generative Adversarial Networks”, Proceedings of the 34th International Conference on Machine Learning, PMLR 70:1857-1865, 2017. 
[7]	D.P. Kingma, J. Ba, “Adam: A Method For Stochastic Optimization”, Proceedings of the 3rd International Conference on Learning Representations, 2015.
[8]	O. Kupyn, V. Budzan, M. Mykhailych, D. Mishkin, J. Matas, “DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks”, IEEE Conference on Computer Vision and Pattern Recognition, 2018 
[9] 	Z. Liu, Y. Wu, L. Li, C. Zhang, B. Wu, “Joint Face Completion and Super-resolution using Multi-scale Feature Relation Learning”, arXiv:2003.00255v1, 2020. 
[10]	B. McFee, C. Raffel, D. Liang, D.P.W. Ellis, M. McVicar, E. Battenberg, O. Nieto, “librosa: Audio and Music Signal Analysis in Python”, Proceedings of the 14th python in science conference, 2015.
[11]	M. Pasini, “MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms” , arXiv:1910.03713, 2019. 
[12] N. Ruiz, S. A. Bargal, S. Sclaroff, “Protecting Against Image Deepfakes by Leaking Universal Perturbations from Black-Box Neural Networks”, arXiv:2006.06493v1, 2020.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信