§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1902201914430500
DOI 10.6846/TKU.2019.00564
論文名稱(中文) 基於深度學習之人形機器人的影像辨識
論文名稱(英文) Visual Recognition for Humanoid Robot Based on Deep Learning
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 電機工程學系機器人工程碩士班
系所名稱(英文) Master's Program In Robotics Engineering, Department Of Electrical And Computer Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 107
學期 1
出版年 108
研究生(中文) 蔡承恩
研究生(英文) Cheng-en Tsai
學號 605470177
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2019-01-09
論文頁數 49頁
口試委員 指導教授 - 李祖添
共同指導教授 - 劉智誠
委員 - 許陳鑑
委員 - 翁慶昌
委員 - 劉智誠
關鍵字(中) 卷積神經網路
深度學習
人形機器人
機器人作業系統
關鍵字(英) Convolutional Neural Networks (CNN)
Deep Learning (DL)
Humanoid Robot
Robot Operating System (ROS)
第三語言關鍵字
學科別分類
中文摘要
本論文針對視覺自主之小型人形機器人提出一個基於深度學習(Deep Learning, DL)之影像辨識的實現方法,在Linux環境下以ROS建構人形機器人的軟體開發架構。在物體檢測與辨識中,將機器人所要辨識的目標先拍攝一定數量的樣本,透過數據增強(Data Augmentation)的方式來擴建資料包的照片數量,再以人工標記的方式標記訓練用的特徵區域,透過深度學習網路裡去學習特徵辨識,並利用單發多盒探測器(Single Shot Multibox Detector, SSD)標記出影像畫面中所要辨識的目標物,以此作為策略判斷的依據。最後,本論文使用NVIDIA出產的深度學習平台- Jetson TX2來執行深度學習的程式。由實驗結果可得知,本論文所設計之小型人形機器人的影像辨識系統,可使機器人在複雜環境中順利辨識出目標物,且成功執行策略並達到預期目標
英文摘要
In this thesis, a deep learning image recognition is proposed to be implemented on Robot Operating System (ROS) for a vision-based autonomous small-sized humanoid robot. In the Linux environment, ROS is used to establish the software development framework for the humanoid robot system. At object detection and identification, first captures a certain number of samples for the target to be identified robot. Second expands the number of photos in the data package through data augmentation, marks the feature areas for training by means of manual marking, and then use deep learning network to learn feature recognition. Through Single Shot MultiBox Detector to mark out the objects to be identified in the image. Finally use NVIDIA Jetson TX2 board to run the program. From the experimental results, we can see that the image recognition of the small-sized humanoid robot can make the robot successfully identify the target in complex environments, and successfully reach the desired goal.
第三語言摘要
論文目次
目錄
目錄	I
圖目錄	IV
表目錄	VI
第一章	緒論	1
1.1	研究背景	1
1.2	研究目的	3
1.3	論文架構	4
第二章	人形機器人平台介紹	5
2.1	前言	5
2.2	人形機器人機構介紹	6
2.3	人形機器人核心控制板介紹	10
2.3.1工業電腦(IPC)	10
2.3.2 FPGA開發板	11
2.3.3深度學習平台(Jetson TX2)	12
2.3.4視訊攝影機	15
2.3.5 FT232模組	16
2.4	人形機器人系統介紹	16
2.4.1 ROS系統介紹	18
2.4.2影像處理	20
第三章	深度學習網路架構	22
3.1	前言	22
3.2	卷積神經網路	22
3.2.1卷積	22
3.2.2池化	23
3.2.3全連接層	25
3.2.4倒傳遞	25
3.2.5評估檢測函數(Intersection over Union, IoU)	26
3.2.6優化器	26
3.2.7學習率	27
3.2.8梯度消失	27
3.3	常見深度學習網路架構	28
3.3.1 AlexNet	28
3.3.2 VGGNet	30
3.3.3 GoogLeNet	32
第四章	物體檢測與辨識	35
4.1	前言	35
4.2	數遽增強(Data Augmentation)	36
4.3	SSD物體檢測模型	36
4.3.1預設標記框	37
4.3.2多尺寸特徵圖	38
第五章	實驗結果	40
5.1	深度學習辨識測試	40
5.2	人形機器人辨識與策略	44
第六章	結論與未來展望	47
參考文獻	48
 
圖目錄
圖2.1、第十代小型人形機器人實體圖	6
圖2.2、第十代人形機器人機器人維度圖	7
圖2.3、人形機器人機構設計與尺寸圖	7
圖2.4、自由度設計圖	9
圖2.5、工業電腦(IPC)實體圖	11
圖2.6、FPGA開發板實體圖	12
圖2.7、Jetson TX2開發板實體圖	13
圖2.8、Jetson TX2架構圖	14
圖2.9、視訊攝影機實體圖	15
圖2.10、FT232模組圖	16
圖2.11、機器人系統模組圖	17
圖2.12、PR2機器人	18
圖2.13、ROS系統節點圖	19
圖2.14、HSV色彩模型	20
圖3.1、卷積示意圖	23
圖3.2、池化示意圖	24
圖3.3、sigmoid激活函數	28
圖3.4、AlexNet架構圖	29
圖3.5、ReLU激活函數	30
圖3.6、VGGNet網路結構圖	31
圖3.7、GoogLeNet架構圖	32
圖3.8、Inception初始結構圖	33
圖3.8、Inception v1結構圖	33
圖4.1、深度學習網路推出年份圖	35
圖4.2、數遽增強示意圖	36
圖4.3、SSD網路架構圖	37
圖4.4、預設標記框示意圖	37
圖4.5、不同尺寸的特徵圖	38
圖4.6、圖片辨識示意圖	39
圖5.1、辨識方法比較圖	40
圖5.2、不同參數辨識成果比較圖	41
圖5.3、深度網路辨識成果圖	42
圖5.4、loss function變化折線圖	43
圖5.5、背景抗雜訊測試成果圖	44
圖5.6、策略動作分解圖	45
圖5.7、策略影像分解圖	46

 
表目錄
表2.1、馬達規格表	9
表2.2、工業電腦(IPC)規格	11
表2.3、FPGA開發板之系統規格	12
表2.4、深度學習平台(Jetson TX2)規格	14
參考文獻
[1]	S. David, H. Aja, M. J. Chris, G. Arthur, S. Laurent, D. George van den, S. Julian, A. Ioannis, P. Veda, L. Marc, D. Sander, G. Dominik, N. John, K. Nal, S.Ilya, L. Timothy, L. Madeleine, K. Koray, G. Thore, H. Demis, “Mastering the game of Go with deep neural networks and tree search,” Nature 529,pp 484-489, Jan, 2016.
[2]	X. Z. Wang, S. X. Lu, “Improved Fuzzy Multicategory Support Vector Machines Classifier,” International Conference on Machine Learning and Cybernetics, pp 3585-3589, Aug, 2006.
[3]	A. Amany, T. Issa, “A New Method for Learning Decision Trees from Rules,” International Conference on Machine Learning and Applications, pp 693-698, Dec, 2009.
[4]	Z. Xiaolong, R. Fang, “Improving Svm Learning Accuracy with Adaboost,” Fourth International Conference on Natural Computation, pp 221-225, Oct, 2008.
[5]	G. E. Hinton, “A Practical Guide to Training Restricted Boltzmann Machines,” Lecture Notes in Computer Science, pp 599-619, 2012.
[6]	A. Krizhevsky, I. Sutskever, G. E. Hinton, “Imagenet Classification with Deep Convolutional Neural Networks,” In Neural Information Processing Systems, pp. 1106-1114, 2012.
[7]	“ROS.org | Powering the world’s robots.” URL: http://www.ros.org/.
[8]	S. Cousins, “ROS on the PR2,” IEEE Robotics and Automation Magazine, Vol. 17, pp. 23-25, 2010
[9]	L.L. Forero, J.M. Yáñez, and J. Ruiz-del-Solar, “Integration of the ROS Framework in Soccer Robotics: The NAO Case,” RoboCup 2013: Robot World Cup XVII, pp. 664-671, 2013.
[10]	蕭聖儒,基於ROS與SOPC之人形機器人的行走速度規劃,淡江大學電機工程學系碩士論文(指導教授:翁慶昌),2016。
[11]	W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C. Y. Fu and A. C. Berg, "SSD: Single Shot MultiBox Detector,“ European Conference on Computer Vision, pp. 21-37, 2016.
[12]	“ROBOTIS.” URL: http://www.robotis.com/index/
[13]	“NVIDIA Jetson TX2” URL:https://devblogs.nvidia.com/jetson-tx2
[14]	M. Quigley, K. Conley, B. Gerkey, J. Faust, T. Foote, J. Leibs, R. Wheeler, and A. Y. Ng, “ROS: An open-source Robot Operating System,” ICRA Workshop on Open Source Software, 2009.
[15]	“PR2 機器人” URL: https://www.willowgarage.com/pages/pr2/overview.
[16]	R. Shaoqing, H. Kaiming, G. Ross and S. Jian, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, pp. 1137-1149, Jun, 2016
[17]	K. Simonyan, A. Zisserman, “Very Deep Convolutional Networks for Large-Scale Visual Recognition,” International Conference on Learning Representations, pp. 409-420, 2015
[18]	C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich, “Going deeper with convolutions,“ IEEE International Conference on Computer Vision and Pattern Recognition, pp. 4842, Jun, 2015.
[19]	Y. Lecun, L. Bottou, Y. Bengio, P. Haffner, “Gradient-Based Learning Applied to Document Recognition,” Proceedings of the IEEE, Vol 86, pp. 2278-2324, Nov, 1998.
[20]	G. Ross, D. Jeff, D. Trevor, M. Jitendra, “Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation,” IEEE Conference on Computer Vision and Pattern Recognition, Jun, 2014.
論文全文使用權限
校內
紙本論文於授權書繳交後5年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後5年公開
校外
同意授權
校外電子論文於授權書繳交後5年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信