電子學位論文服務

§ 瀏覽學位論文書目資料

本論文電子全文於2023-07-31起於校外公開使用
本論文紙本於2023-07-31起公開使用

系統識別號	U0002-0608202013375300
DOI	10.6846/TKU.2020.00137
論文名稱(中文)	應用深度學習於足球競賽之物件辨識
論文名稱(英文)	Using Deep Learning for Object Detection on Soccer Competition
第三語言論文名稱
校院名稱	淡江大學
系所名稱(中文)	電機工程學系機器人工程碩士班
系所名稱(英文)	Master's Program In Robotics Engineering, Department Of Electrical And Computer Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度	108
學期	2
出版年	109
研究生(中文)	陳建良
研究生(英文)	Chien-Liang Chen
學號	607470142
學位類別	碩士
語言別	繁體中文
第二語言別
口試日期	2020-07-14
論文頁數	75頁
口試委員	指導教授 - 李世安委員 - 馮玄明委員 - 李世安委員 - 劉智誠
關鍵字(中)	物件辨識深度神經網路深度學習卷積神經網路足球機器人全方位視覺系統
關鍵字(英)	Object Detection Deep Neural Network Deep Learning Convolution Neural Network Soccer Robot Omnidirectional Vision System
第三語言關鍵字
學科別分類
中文摘要	本論文應用深度學習網路模型於辨識全方位視覺影像中的目標物件。在機器足球賽中，機器人需要準確及快速的影像辨識方法來辨識足球場上的目標物件，而本論文的機器人是採用全方位視覺系統，其影像能夠在一張影像中看到機器人周圍的環景影像。使用全方位視覺系統的影像會有扭曲以及形變之缺點，因此會讓傳統物件辨識方法失效。因此本論文應用及實現多款深度學習的類神經網路方法，例如：Mask Region-based CNN(Mask_RCNN)、You Only Look Me version 3(YOLOv3)、Single Shot multibox Detector(SSD)、以及YOLACT，來辨識足球場上的物件，找出適合應用於機器足球賽中的深度學習網路模型。在最後的實驗結果中，經由比較各個深度網路架構的數據後，本論文使用YOLACT作為應用於機器足球賽中的深度學習網路模型，此深度學習網路模型的辨識準確率以及速度都適合應用在機器足球員的競賽上，以及相較於傳統物件辨識更能精準辨識複雜的物件。
英文摘要	In this thesis, the deep learning neural-network model used in detect the objects in the omnidirectional visual images. In the robot soccer competition, robots need to use accurate and rapid image recognition methods to detect the objects on the soccer field. The robot in this thesis uses an omnidirectional vision system, and its image can see the surrounding image around the robot in one image. The images using the omnidirectional vision system have the disadvantages of distortion and deformation. Therefore, it will fail with traditional object recognition methods. Therefore, this paper applies and implements many kinds of deep learning neural network, such as Mask Region-based CNN (Mask_RCNN)、You Only Look Me version 3(YOLOv3), Single Shot multibox Detector(SSD), YOLACT, to detect the objects on the soccer field, and find a deep learning neural-network model suitable for use in the soccer robot competition. In the final experimental results, after comparing the data of each deep neural-network architecture, this paper uses YOLACT as a deep learning network model applied to machine soccer competition. The recognition accuracy and speed of this deep learning neural-network model are suitable for the application of soccer robot players. And compared to traditional object detection, it can accurately detect complex objects.
第三語言摘要
論文目次	中文摘要 I 英文摘要 II 目錄 III 圖目錄 V 表目錄 VIII 中英文對照表 IX 第一章緒論 1 1.1 研究背景 1 1.1.1 機器人產業 1 1.1.2 機器人足球競賽 3 1.1.3 物件辨識簡介 5 1.1.4 深度學習簡介 7 1.2 研究動機與目的 9 1.3 論文組織 10 第二章物件辨識演算法介紹 11 2.1 物件辨識概述 11 2.1.1 物件辨識的演進 11 2.1.2 物件辨識的類型 13 2.2 卷積神經網路 16 2.2.1 卷積神經網路的特性 16 2.2.2 卷積神經網路的架構 17 2.3 特徵金字塔網路 22 2.4 殘差網路 25 第三章即時目標物辨識方法 27 3.1 Mask R-CNN 27 3.2 YOLOv3 32 3.3 YOLACT 35 3.4 訓練資料的收集 43 3.5 實驗流程 45 第四章實驗結果 47 4.1 實驗環境 47 4.1.1 實驗設備與工具 47 4.1.2 實驗場地 48 4.1.3 全方位視覺影像 49 4.2 實驗結果 50 4.2.1 物件辨識器比較 50 4.2.2 物件辨識器應用於足球場上的物件辨識 61 4.2.3 使用深度神經網路模型的物件辨識與傳統物件辨識之比較 64 第五章結論與未來展望 69 5.1 結論 69 5.2 未來展望 71 參考文獻 72 圖 1.1、Shakey機器人 2 圖 1.2、FIRA[2] 3 圖 1.3、RoboCup[3] 3 圖 1.4、全方位視覺系統構造 4 圖 1.5、全方位視覺系統顯示圖 4 圖 1.6、以色彩模型之影像分割進行物件辨識之示意圖 6 圖 1.7、深度學習與機器學習與人工智慧關係圖 8 圖 2.1、物件辨識的三大議題 12 圖 2.2、基本物件辨識示意圖[21] 14 圖 2.3、語意分割示意圖[21] 14 圖 2.4、實例分割示意圖[21] 15 圖 2.5、全景分割示意圖[21] 15 圖 2.6、卷積神經網路之架構圖 17 圖 2.7、卷積運算之示意圖 18 圖 2.8、線性整流單元方程式之示意圖 19 圖 2.9、線性整流單元之示意圖 19 圖 2.10、最大池化運算之示意圖 20 圖 2.11、卷積層全連接至全連接層過程之示意圖 21 圖 2.12、特徵金字塔之示意圖 22 圖 2.13、特徵金字塔流程示意圖 22 圖 2.14、特徵金字塔網路流程之示意圖 23 圖 2.15、特徵金字塔網路之示意圖 24 圖 2.16、殘差學習單元之示意圖 25 圖 2.17、殘差網路系列架構之示意圖 26 圖 3.1、Mask R-CNN 網路架構圖 28 圖 3.2、ResNet-50網路架構圖 29 圖 3.3、Mask R-CNN特徵金字塔網路架構圖 30 圖 3.4、YOLOv3網路架構圖 32 圖 3.5、DarkNet-53 架構圖 33 圖 3.6、DarkNet-53與ResNet-101/152網路比較圖[9] 34 圖 3.7、YOLACT網路架構圖 36 圖 3.8、特徵金字塔網路架構圖 37 圖 3.9、Protonet模組流程圖 38 圖 3.10、Protonet 範例示意圖[27] 38 圖 3.11、Prediction Head模組架構圖 39 圖 3.12、訓練資料標籤示意圖 44 圖 3.13、實驗流程架構圖 45 圖 4.1、FIRA足球場地圖 48 圖 4.2、FIFA標準尺寸5號足球 49 圖 4.3、全方位視覺影像 49 圖 4.4、Mask R-CNN辨識橘色足球之示意圖 50 圖 4.5、Mask R-CNN辨識橘色足球之結果連續圖 52 圖 4.6、YOLOv3辨識橘色足球之示意圖 53 圖 4.7、YOLOv3辨識橘色足球之結果連續圖 54 圖 4.8、YOLOv3辨識橘色足球之示意圖 56 圖 4.9、YOLACT辨識橘色足球之結果連續圖 57 圖 4.10、高速運動下球變形之示意圖 59 圖 4.11、球被障物物遮掩之示意圖 60 圖 4.12、YOLACT應用於足球場上的物件辨識之示意圖 61 圖 4.13、YOLACT辨識FIRA足球場上物件之結果連續圖 63 圖 4.14、YOLACT物件辨識與傳統物件辨識在光源改變下之比較圖 65 圖 4.15、YOLACT物件辨識與傳統物件辨識在環境複雜下之比較圖 68 表 3.1、Fast NMS 第一步計算表 41 表 3.2、Fast NMS 第二步計算表 41 表 4.1、硬體設備規格表 47 表 4.2、軟體工具表 47 表 4.3、Mask R-CNN辨識數據表 52 表 4.4、YOLOv3辨識數據表 55 表 4.5、YOLACT辨識數據表 58 表 4.6、物件辨識器辨識數據比較表 58 表 4.7、YOLACT辨識FIRA足球場上物件之數據表 63
參考文獻	[1] Shakey, URL: http://www.ai.sri.com/shakey/ [2] FIRA, URL: http://www.fira.net [3] RoboCup, URL: https://www.robocup.org [4] 連振宇，應用全方位攝影機於空間移動物體偵測，淡江大學電機工程學系機器人工程碩士班論文，2017。 [5] 林巧芸，基於快包法的多目標色彩模型設計，淡江大學電機工程學系機器人工程碩士班論文，2014。 [6] Min Huang, Huazhong Shu, Qian Liu, and Lei Chen,“A study of moving object detection based on combining background profile difference algorithm,” International Conference on Industrial and Information Systems(ICIIS), pp.425-428, 2010. [7] Gang Wu, Weijie Liu, Xiaohui Xie, and Qiang Wei, “A Shape Detection Method Based on the Radial Symmetry Neture and Direction-Discriminated Voting,” IEEE International Conference on Image Processing (ICIP), pp. VI - 169 – VI - 172, 2007. [8] Rumelhart, E. David, E. Hinton, and J. Ronald, “Learning representations by back-propagating errors,” Cognitive modeling, pp. 533-536, 1988. [9] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” Neural Information Processing Systems (NIPS), pp.1097-1105, 2012. [10] Y. Meng, and B. Tiddeman, “Implementing the Scale Invariant Feature Transform (SIFT) Method,” Department of Computer Science, pp.1-9, 2006. [11] Navneet Dalal, and Bill Triggs, “Histograms of Oriented Gradients for Human Detection,” International Conference on Computer Vision & Pattern Recognition (CVPR ’05), pp.1-8, 2005. [12] Yiming Zhang, Xiangyun Xiao, and Xubo Yang, “Real-time Object Detection for 360-degree Panoramic Image using CNN,” International Conference on Virtual Reality and Visualization (ICVRV), pp.18-23, 2017. [13] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi, “You Only Look Once: Uniﬁed ,Real-Time Object Detection,” arXiv preprint arXiv: 1506.02640v5, pp. 1-10, 2016. [14] Joseph Redmon, and Ali Farhadi, “YOLO9000: Better, Faster, Stronger,” arXiv preprint arXiv: 1612.08242v1, pp. 1-9, 2016. [15] Joseph Redmon, and Ali Farhadi, “YOLOv3: An Incremental Improvement,” arXiv preprint arXiv: 1804.02767v1, pp. 1-6, 2018. [16] Alexey Bochkovskiy, Chien-Yao Wang, and Hong-Yuan Mark Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” arXiv preprint arXiv: 2004.10934v1, pp. 1-17, 2020. [17] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C. Berg, “SSD: Single Shot MultiBox Detector,” arXiv preprint arXiv: 1512.02325v5, pp. 1-17, 2016. [18] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik, “Rich feature ehierarchies for accurate object detection and semantic segmentation,” arXiv preprint arXiv: 1311.2524v5, pp. 1-21, 2014. [19] Ross Girshick, “Fast R-CNN,” The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1440-1448, 2015. [20] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” arXiv preprint arXiv: 1506.01497v3, pp. 1-14, 2016. [21] Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick, “Mask R-CNN,” arXiv preprint arXiv: 1703.06870v3, pp. 1-12, 2018. [22] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Dollar, “Panoptic Segmentation,” The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9404-9413, 2019. [23] Y. LeCun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, and L.D. Jackel, “Deep Learning,” Journal of Neural Computation, vol. 1, pp. 541-551, 1989. [24] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie, “Feature Pyramid Networks for Object Detection,” The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2117-2125, 2017. [25] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, “Deep Residual Learning for Image Recognition,” arXiv preprint arXiv: 1512.03385v1, pp. 1-12, 2015. [26] Yi Li, Haozhi Qi, Jifeng Dai, Xiangyang Ji, and Yichen Wei, “Fully Convolutional Instance-aware Semantic Segmentation,” arXiv preprint arXiv: 1611.07709v2, pp. 1-19, 2017. [27] Daniel Bolya, Chong Zhou, Fanyi Xiao, and Yong Jae Lee, “YOLACT Real-time Instance Segmentation,” arXiv preprint arXiv: 1904.02689v2, pp. 1-11, 2019. [28] Navaneeth Bodla, Bharat Singh, Rama Chellappa, and Larry S. Davis, “Improving Object Detection With One Line of Code,” arXiv preprint arXiv: 1704.04503v2, pp. 1-9, 2017. [29] Labelme, URL: https://github.com/wkentaro/labelme
論文全文使用權限	校內：校內紙本論文延後至2023-07-31公開同意電子論文全文授權校園內公開校內電子論文延後至2023-07-31公開校內書目立即公開校外：同意授權予資料庫廠商校外電子論文延後至2023-07-31公開

返回頁首

如有問題，歡迎洽詢！
圖書館數位資訊組　(02)2621-5656 轉 2487 或來信