系統識別號 | U0002-1902201914430500 |
---|---|
DOI | 10.6846/TKU.2019.00564 |
論文名稱(中文) | 基於深度學習之人形機器人的影像辨識 |
論文名稱(英文) | Visual Recognition for Humanoid Robot Based on Deep Learning |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 電機工程學系機器人工程碩士班 |
系所名稱(英文) | Master's Program In Robotics Engineering, Department Of Electrical And Computer Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 107 |
學期 | 1 |
出版年 | 108 |
研究生(中文) | 蔡承恩 |
研究生(英文) | Cheng-en Tsai |
學號 | 605470177 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2019-01-09 |
論文頁數 | 49頁 |
口試委員 |
指導教授
-
李祖添
共同指導教授 - 劉智誠 委員 - 許陳鑑 委員 - 翁慶昌 委員 - 劉智誠 |
關鍵字(中) |
卷積神經網路 深度學習 人形機器人 機器人作業系統 |
關鍵字(英) |
Convolutional Neural Networks (CNN) Deep Learning (DL) Humanoid Robot Robot Operating System (ROS) |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
本論文針對視覺自主之小型人形機器人提出一個基於深度學習(Deep Learning, DL)之影像辨識的實現方法,在Linux環境下以ROS建構人形機器人的軟體開發架構。在物體檢測與辨識中,將機器人所要辨識的目標先拍攝一定數量的樣本,透過數據增強(Data Augmentation)的方式來擴建資料包的照片數量,再以人工標記的方式標記訓練用的特徵區域,透過深度學習網路裡去學習特徵辨識,並利用單發多盒探測器(Single Shot Multibox Detector, SSD)標記出影像畫面中所要辨識的目標物,以此作為策略判斷的依據。最後,本論文使用NVIDIA出產的深度學習平台- Jetson TX2來執行深度學習的程式。由實驗結果可得知,本論文所設計之小型人形機器人的影像辨識系統,可使機器人在複雜環境中順利辨識出目標物,且成功執行策略並達到預期目標 |
英文摘要 |
In this thesis, a deep learning image recognition is proposed to be implemented on Robot Operating System (ROS) for a vision-based autonomous small-sized humanoid robot. In the Linux environment, ROS is used to establish the software development framework for the humanoid robot system. At object detection and identification, first captures a certain number of samples for the target to be identified robot. Second expands the number of photos in the data package through data augmentation, marks the feature areas for training by means of manual marking, and then use deep learning network to learn feature recognition. Through Single Shot MultiBox Detector to mark out the objects to be identified in the image. Finally use NVIDIA Jetson TX2 board to run the program. From the experimental results, we can see that the image recognition of the small-sized humanoid robot can make the robot successfully identify the target in complex environments, and successfully reach the desired goal. |
第三語言摘要 | |
論文目次 |
目錄 目錄 I 圖目錄 IV 表目錄 VI 第一章 緒論 1 1.1 研究背景 1 1.2 研究目的 3 1.3 論文架構 4 第二章 人形機器人平台介紹 5 2.1 前言 5 2.2 人形機器人機構介紹 6 2.3 人形機器人核心控制板介紹 10 2.3.1工業電腦(IPC) 10 2.3.2 FPGA開發板 11 2.3.3深度學習平台(Jetson TX2) 12 2.3.4視訊攝影機 15 2.3.5 FT232模組 16 2.4 人形機器人系統介紹 16 2.4.1 ROS系統介紹 18 2.4.2影像處理 20 第三章 深度學習網路架構 22 3.1 前言 22 3.2 卷積神經網路 22 3.2.1卷積 22 3.2.2池化 23 3.2.3全連接層 25 3.2.4倒傳遞 25 3.2.5評估檢測函數(Intersection over Union, IoU) 26 3.2.6優化器 26 3.2.7學習率 27 3.2.8梯度消失 27 3.3 常見深度學習網路架構 28 3.3.1 AlexNet 28 3.3.2 VGGNet 30 3.3.3 GoogLeNet 32 第四章 物體檢測與辨識 35 4.1 前言 35 4.2 數遽增強(Data Augmentation) 36 4.3 SSD物體檢測模型 36 4.3.1預設標記框 37 4.3.2多尺寸特徵圖 38 第五章 實驗結果 40 5.1 深度學習辨識測試 40 5.2 人形機器人辨識與策略 44 第六章 結論與未來展望 47 參考文獻 48 圖目錄 圖2.1、第十代小型人形機器人實體圖 6 圖2.2、第十代人形機器人機器人維度圖 7 圖2.3、人形機器人機構設計與尺寸圖 7 圖2.4、自由度設計圖 9 圖2.5、工業電腦(IPC)實體圖 11 圖2.6、FPGA開發板實體圖 12 圖2.7、Jetson TX2開發板實體圖 13 圖2.8、Jetson TX2架構圖 14 圖2.9、視訊攝影機實體圖 15 圖2.10、FT232模組圖 16 圖2.11、機器人系統模組圖 17 圖2.12、PR2機器人 18 圖2.13、ROS系統節點圖 19 圖2.14、HSV色彩模型 20 圖3.1、卷積示意圖 23 圖3.2、池化示意圖 24 圖3.3、sigmoid激活函數 28 圖3.4、AlexNet架構圖 29 圖3.5、ReLU激活函數 30 圖3.6、VGGNet網路結構圖 31 圖3.7、GoogLeNet架構圖 32 圖3.8、Inception初始結構圖 33 圖3.8、Inception v1結構圖 33 圖4.1、深度學習網路推出年份圖 35 圖4.2、數遽增強示意圖 36 圖4.3、SSD網路架構圖 37 圖4.4、預設標記框示意圖 37 圖4.5、不同尺寸的特徵圖 38 圖4.6、圖片辨識示意圖 39 圖5.1、辨識方法比較圖 40 圖5.2、不同參數辨識成果比較圖 41 圖5.3、深度網路辨識成果圖 42 圖5.4、loss function變化折線圖 43 圖5.5、背景抗雜訊測試成果圖 44 圖5.6、策略動作分解圖 45 圖5.7、策略影像分解圖 46 表目錄 表2.1、馬達規格表 9 表2.2、工業電腦(IPC)規格 11 表2.3、FPGA開發板之系統規格 12 表2.4、深度學習平台(Jetson TX2)規格 14 |
參考文獻 |
[1] S. David, H. Aja, M. J. Chris, G. Arthur, S. Laurent, D. George van den, S. Julian, A. Ioannis, P. Veda, L. Marc, D. Sander, G. Dominik, N. John, K. Nal, S.Ilya, L. Timothy, L. Madeleine, K. Koray, G. Thore, H. Demis, “Mastering the game of Go with deep neural networks and tree search,” Nature 529,pp 484-489, Jan, 2016. [2] X. Z. Wang, S. X. Lu, “Improved Fuzzy Multicategory Support Vector Machines Classifier,” International Conference on Machine Learning and Cybernetics, pp 3585-3589, Aug, 2006. [3] A. Amany, T. Issa, “A New Method for Learning Decision Trees from Rules,” International Conference on Machine Learning and Applications, pp 693-698, Dec, 2009. [4] Z. Xiaolong, R. Fang, “Improving Svm Learning Accuracy with Adaboost,” Fourth International Conference on Natural Computation, pp 221-225, Oct, 2008. [5] G. E. Hinton, “A Practical Guide to Training Restricted Boltzmann Machines,” Lecture Notes in Computer Science, pp 599-619, 2012. [6] A. Krizhevsky, I. Sutskever, G. E. Hinton, “Imagenet Classification with Deep Convolutional Neural Networks,” In Neural Information Processing Systems, pp. 1106-1114, 2012. [7] “ROS.org | Powering the world’s robots.” URL: http://www.ros.org/. [8] S. Cousins, “ROS on the PR2,” IEEE Robotics and Automation Magazine, Vol. 17, pp. 23-25, 2010 [9] L.L. Forero, J.M. Yáñez, and J. Ruiz-del-Solar, “Integration of the ROS Framework in Soccer Robotics: The NAO Case,” RoboCup 2013: Robot World Cup XVII, pp. 664-671, 2013. [10] 蕭聖儒,基於ROS與SOPC之人形機器人的行走速度規劃,淡江大學電機工程學系碩士論文(指導教授:翁慶昌),2016。 [11] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C. Y. Fu and A. C. Berg, "SSD: Single Shot MultiBox Detector,“ European Conference on Computer Vision, pp. 21-37, 2016. [12] “ROBOTIS.” URL: http://www.robotis.com/index/ [13] “NVIDIA Jetson TX2” URL:https://devblogs.nvidia.com/jetson-tx2 [14] M. Quigley, K. Conley, B. Gerkey, J. Faust, T. Foote, J. Leibs, R. Wheeler, and A. Y. Ng, “ROS: An open-source Robot Operating System,” ICRA Workshop on Open Source Software, 2009. [15] “PR2 機器人” URL: https://www.willowgarage.com/pages/pr2/overview. [16] R. Shaoqing, H. Kaiming, G. Ross and S. Jian, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, pp. 1137-1149, Jun, 2016 [17] K. Simonyan, A. Zisserman, “Very Deep Convolutional Networks for Large-Scale Visual Recognition,” International Conference on Learning Representations, pp. 409-420, 2015 [18] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich, “Going deeper with convolutions,“ IEEE International Conference on Computer Vision and Pattern Recognition, pp. 4842, Jun, 2015. [19] Y. Lecun, L. Bottou, Y. Bengio, P. Haffner, “Gradient-Based Learning Applied to Document Recognition,” Proceedings of the IEEE, Vol 86, pp. 2278-2324, Nov, 1998. [20] G. Ross, D. Jeff, D. Trevor, M. Jitendra, “Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation,” IEEE Conference on Computer Vision and Pattern Recognition, Jun, 2014. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信