淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


系統識別號 U0002-0608202013375300
中文論文名稱 應用深度學習於足球競賽之物件辨識
英文論文名稱 Using Deep Learning for Object Detection on Soccer Competition
校院名稱 淡江大學
系所名稱(中) 電機工程學系機器人工程碩士班
系所名稱(英) Master’s Program In Robotics Engineering, Department Of Electrical And Computer Engineering
學年度 108
學期 2
出版年 109
研究生中文姓名 陳建良
研究生英文姓名 Chien-Liang Chen
學號 607470142
學位類別 碩士
語文別 中文
口試日期 2020-07-14
論文頁數 75頁
口試委員 指導教授-李世安
委員-馮玄明
委員-李世安
委員-劉智誠
中文關鍵字 物件辨識  深度神經網路  深度學習  卷積神經網路  足球機器人  全方位視覺系統 
英文關鍵字 Object Detection  Deep Neural Network  Deep Learning  Convolution Neural Network  Soccer Robot  Omnidirectional Vision System 
學科別分類
中文摘要 本論文應用深度學習網路模型於辨識全方位視覺影像中的目標物件。在機器足球賽中,機器人需要準確及快速的影像辨識方法來辨識足球場上的目標物件,而本論文的機器人是採用全方位視覺系統,其影像能夠在一張影像中看到機器人周圍的環景影像。使用全方位視覺系統的影像會有扭曲以及形變之缺點,因此會讓傳統物件辨識方法失效。因此本論文應用及實現多款深度學習的類神經網路方法,例如:Mask Region-based CNN(Mask_RCNN)、You Only Look Me version 3(YOLOv3)、Single Shot multibox Detector(SSD)、以及YOLACT,來辨識足球場上的物件,找出適合應用於機器足球賽中的深度學習網路模型。在最後的實驗結果中,經由比較各個深度網路架構的數據後,本論文使用YOLACT作為應用於機器足球賽中的深度學習網路模型,此深度學習網路模型的辨識準確率以及速度都適合應用在機器足球員的競賽上,以及相較於傳統物件辨識更能精準辨識複雜的物件。
英文摘要 In this thesis, the deep learning neural-network model used in detect the objects in the omnidirectional visual images. In the robot soccer competition, robots need to use accurate and rapid image recognition methods to detect the objects on the soccer field. The robot in this thesis uses an omnidirectional vision system, and its image can see the surrounding image around the robot in one image. The images using the omnidirectional vision system have the disadvantages of distortion and deformation. Therefore, it will fail with traditional object recognition methods. Therefore, this paper applies and implements many kinds of deep learning neural network, such as Mask Region-based CNN (Mask_RCNN)、You Only Look Me version 3(YOLOv3), Single Shot multibox Detector(SSD), YOLACT, to detect the objects on the soccer field, and find a deep learning neural-network model suitable for use in the soccer robot competition. In the final experimental results, after comparing the data of each deep neural-network architecture, this paper uses YOLACT as a deep learning network model applied to machine soccer competition. The recognition accuracy and speed of this deep learning neural-network model are suitable for the application of soccer robot players. And compared to traditional object detection, it can accurately detect complex objects.
論文目次 中文摘要 I
英文摘要 II
目錄 III
圖目錄 V
表目錄 VIII
中英文對照表 IX
第一章 緒論 1
1.1 研究背景 1
1.1.1 機器人產業 1
1.1.2 機器人足球競賽 3
1.1.3 物件辨識簡介 5
1.1.4 深度學習簡介 7
1.2 研究動機與目的 9
1.3 論文組織 10
第二章 物件辨識演算法介紹 11
2.1 物件辨識概述 11
2.1.1 物件辨識的演進 11
2.1.2 物件辨識的類型 13
2.2 卷積神經網路 16
2.2.1 卷積神經網路的特性 16
2.2.2 卷積神經網路的架構 17
2.3 特徵金字塔網路 22
2.4 殘差網路 25
第三章 即時目標物辨識方法 27
3.1 Mask R-CNN 27
3.2 YOLOv3 32
3.3 YOLACT 35
3.4 訓練資料的收集 43
3.5 實驗流程 45
第四章 實驗結果 47
4.1 實驗環境 47
4.1.1 實驗設備與工具 47
4.1.2 實驗場地 48
4.1.3 全方位視覺影像 49
4.2 實驗結果 50
4.2.1 物件辨識器比較 50
4.2.2 物件辨識器應用於足球場上的物件辨識 61
4.2.3 使用深度神經網路模型的物件辨識與傳統物件辨識之比較 64
第五章 結論與未來展望 69
5.1 結論 69
5.2 未來展望 71
參考文獻 72
圖 1.1、Shakey機器人 2
圖 1.2、FIRA[2] 3
圖 1.3、RoboCup[3] 3
圖 1.4、全方位視覺系統構造 4
圖 1.5、全方位視覺系統顯示圖 4
圖 1.6、以色彩模型之影像分割進行物件辨識之示意圖 6
圖 1.7、深度學習與機器學習與人工智慧關係圖 8
圖 2.1、物件辨識的三大議題 12
圖 2.2、基本物件辨識示意圖[21] 14
圖 2.3、語意分割示意圖[21] 14
圖 2.4、實例分割示意圖[21] 15
圖 2.5、全景分割示意圖[21] 15
圖 2.6、卷積神經網路之架構圖 17
圖 2.7、卷積運算之示意圖 18
圖 2.8、線性整流單元方程式之示意圖 19
圖 2.9、線性整流單元之示意圖 19
圖 2.10、最大池化運算之示意圖 20
圖 2.11、卷積層全連接至全連接層過程之示意圖 21
圖 2.12、特徵金字塔之示意圖 22
圖 2.13、特徵金字塔流程示意圖 22
圖 2.14、特徵金字塔網路流程之示意圖 23
圖 2.15、特徵金字塔網路之示意圖 24
圖 2.16、殘差學習單元之示意圖 25
圖 2.17、殘差網路系列架構之示意圖 26
圖 3.1、Mask R-CNN 網路架構圖 28
圖 3.2、ResNet-50網路架構圖 29
圖 3.3、Mask R-CNN特徵金字塔網路架構圖 30
圖 3.4、YOLOv3網路架構圖 32
圖 3.5、DarkNet-53 架構圖 33
圖 3.6、DarkNet-53與ResNet-101/152網路比較圖[9] 34
圖 3.7、YOLACT網路架構圖 36
圖 3.8、特徵金字塔網路架構圖 37
圖 3.9、Protonet模組流程圖 38
圖 3.10、Protonet 範例示意圖[27] 38
圖 3.11、Prediction Head模組架構圖 39
圖 3.12、訓練資料標籤示意圖 44
圖 3.13、實驗流程架構圖 45
圖 4.1、FIRA足球場地圖 48
圖 4.2、FIFA標準尺寸5號足球 49
圖 4.3、全方位視覺影像 49
圖 4.4、Mask R-CNN辨識橘色足球之示意圖 50
圖 4.5、Mask R-CNN辨識橘色足球之結果連續圖 52
圖 4.6、YOLOv3辨識橘色足球之示意圖 53
圖 4.7、YOLOv3辨識橘色足球之結果連續圖 54
圖 4.8、YOLOv3辨識橘色足球之示意圖 56
圖 4.9、YOLACT辨識橘色足球之結果連續圖 57
圖 4.10、高速運動下球變形之示意圖 59
圖 4.11、球被障物物遮掩之示意圖 60
圖 4.12、YOLACT應用於足球場上的物件辨識之示意圖 61
圖 4.13、YOLACT辨識FIRA足球場上物件之結果連續圖 63
圖 4.14、YOLACT物件辨識與傳統物件辨識在光源改變下之比較圖 65
圖 4.15、YOLACT物件辨識與傳統物件辨識在環境複雜下之比較圖 68
表 3.1、Fast NMS 第一步計算表 41
表 3.2、Fast NMS 第二步計算表 41
表 4.1、硬體設備規格表 47
表 4.2、軟體工具表 47
表 4.3、Mask R-CNN辨識數據表 52
表 4.4、YOLOv3辨識數據表 55
表 4.5、YOLACT辨識數據表 58
表 4.6、物件辨識器辨識數據比較表 58
表 4.7、YOLACT辨識FIRA足球場上物件之數據表 63



參考文獻 [1] Shakey, URL: http://www.ai.sri.com/shakey/
[2] FIRA, URL: http://www.fira.net
[3] RoboCup, URL: https://www.robocup.org
[4] 連振宇,應用全方位攝影機於空間移動物體偵測,淡江大學電機工程學系機器人工程碩士班論文,2017。
[5] 林巧芸,基於快包法的多目標色彩模型設計,淡江大學電機工程學系機器人工程碩士班論文,2014。
[6] Min Huang, Huazhong Shu, Qian Liu, and Lei Chen,“A study of moving object detection based on combining background profile difference algorithm,” International Conference on Industrial and Information Systems(ICIIS), pp.425-428, 2010.
[7] Gang Wu, Weijie Liu, Xiaohui Xie, and Qiang Wei, “A Shape Detection Method Based on the Radial Symmetry Neture and Direction-Discriminated Voting,” IEEE International Conference on Image Processing (ICIP), pp. VI - 169 – VI - 172, 2007.
[8] Rumelhart, E. David, E. Hinton, and J. Ronald, “Learning representations by back-propagating errors,” Cognitive modeling, pp. 533-536, 1988.
[9] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” Neural Information Processing Systems (NIPS), pp.1097-1105, 2012.
[10] Y. Meng, and B. Tiddeman, “Implementing the Scale Invariant Feature Transform (SIFT) Method,” Department of Computer Science, pp.1-9, 2006.
[11] Navneet Dalal, and Bill Triggs, “Histograms of Oriented Gradients for Human Detection,” International Conference on Computer Vision & Pattern Recognition (CVPR ’05), pp.1-8, 2005.
[12] Yiming Zhang, Xiangyun Xiao, and Xubo Yang, “Real-time Object Detection for 360-degree Panoramic Image using CNN,” International Conference on Virtual Reality and Visualization (ICVRV), pp.18-23, 2017.
[13] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi, “You Only Look Once: Unified ,Real-Time Object Detection,” arXiv preprint arXiv: 1506.02640v5, pp. 1-10, 2016.
[14] Joseph Redmon, and Ali Farhadi, “YOLO9000: Better, Faster, Stronger,” arXiv preprint arXiv: 1612.08242v1, pp. 1-9, 2016.
[15] Joseph Redmon, and Ali Farhadi, “YOLOv3: An Incremental Improvement,” arXiv preprint arXiv: 1804.02767v1, pp. 1-6, 2018.
[16] Alexey Bochkovskiy, Chien-Yao Wang, and Hong-Yuan Mark Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” arXiv preprint arXiv: 2004.10934v1, pp. 1-17, 2020.
[17] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C. Berg, “SSD: Single Shot MultiBox Detector,” arXiv preprint arXiv: 1512.02325v5, pp. 1-17, 2016.
[18] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik, “Rich feature ehierarchies for accurate object detection and semantic segmentation,” arXiv preprint arXiv: 1311.2524v5, pp. 1-21, 2014.
[19] Ross Girshick, “Fast R-CNN,” The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1440-1448, 2015.
[20] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” arXiv preprint arXiv: 1506.01497v3, pp. 1-14, 2016.
[21] Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick, “Mask R-CNN,” arXiv preprint arXiv: 1703.06870v3, pp. 1-12, 2018.
[22] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Dollar, “Panoptic Segmentation,” The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9404-9413, 2019.
[23] Y. LeCun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, and L.D. Jackel, “Deep Learning,” Journal of Neural Computation, vol. 1, pp. 541-551, 1989.
[24] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie, “Feature Pyramid Networks for Object Detection,” The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2117-2125, 2017.
[25] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, “Deep Residual Learning for Image Recognition,” arXiv preprint arXiv: 1512.03385v1, pp. 1-12, 2015.
[26] Yi Li, Haozhi Qi, Jifeng Dai, Xiangyang Ji, and Yichen Wei, “Fully Convolutional Instance-aware Semantic Segmentation,” arXiv preprint arXiv: 1611.07709v2, pp. 1-19, 2017.
[27] Daniel Bolya, Chong Zhou, Fanyi Xiao, and Yong Jae Lee, “YOLACT Real-time Instance Segmentation,” arXiv preprint arXiv: 1904.02689v2, pp. 1-11, 2019.
[28] Navaneeth Bodla, Bharat Singh, Rama Chellappa, and Larry S. Davis, “Improving Object Detection With One Line of Code,” arXiv preprint arXiv: 1704.04503v2, pp. 1-9, 2017.
[29] Labelme, URL: https://github.com/wkentaro/labelme
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2023-07-31公開。
  • 同意授權瀏覽/列印電子全文服務,於2023-07-31起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信