淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


系統識別號 U0002-0708201910501800
中文論文名稱 基於深度學習之單視覺物件姿態估測應用於移動機器手臂之物件挑揀
英文論文名稱 Monocular Object Pose Estimation Based on Deep Learning for Mobile Manipulator’s Object-Picking
校院名稱 淡江大學
系所名稱(中) 機械與機電工程學系碩士班
系所名稱(英) Department of Mechanical and Electro-Mechanical Engineering
學年度 107
學期 2
出版年 108
研究生中文姓名 李昀融
研究生英文姓名 YUN-LONG Li
學號 606370079
學位類別 碩士
語文別 中文
第二語文別 英文
口試日期 2019-07-10
論文頁數 78頁
口試委員 指導教授-王銀添
委員-許陳鑑
委員-李宜勳
中文關鍵字 移動機器手臂  機器人作業系統  物件姿態估測  深度學習 
英文關鍵字 Mobile Manipulator  Robot Operating System  Object Pose Estimation  Deep Learning 
學科別分類 學科別應用科學機械工程
中文摘要 本論文發展基於深度學習的單視覺物件估測演算法,應用於輔助移動機器手臂執行物件挑揀之任務。主要研究項目有包含三部分:第一部分使用機器人作業系統(robot operating system, ROS)規劃七軸機器手臂的底層運動控制器,使用通用機器人描述格式(universal robot description format, URDF),架構機器手臂在ROS的網宇實體系統(cyber-physical system, CPS),以便同時進行運動模擬與實體驅動;第二部分使用ROS規劃四輪全方位移動平台的底層運動控制器,使用URDF架構移動平台的CPS。也使用格點建圖(gmapping)套件建立環境地圖,再匯入導航(navigation)套件執行移動平台的導航與定位任務;第三部分規劃基於深度學習的單視覺物件估測演算法,包括建立物件的3D模型,再使用遊戲引擎(Unreal Engine 4, UE4)建立虛擬場景,搭配輝達深度學習數據集合成器(Nvidia deep learning dataset synthesizer, NDDS)插件,提供物件3D模型進行落體(falling things)數據集之合成。合成的數據集再匯入深度神經網路,進行權重參數的學習。學習完成的神經網路權重參數,提供物件的姿態估測。最後,以網宇實體概念實現同時模擬與實測,進行單視覺輔助移動機器手臂,執行物件挑揀之任務。
英文摘要 This thesis develops a monocular object pose estimation algorithm based on deep learning which is applied to assist the mobile manipulator to perform object picking tasks. The main research project consists of three parts: First, the motion controller was planned for the seven-axis manipulator based on the operating system (ROS). The cyber-physical system (CPS) of the manipulator was also constructed for simultaneous motion simulation and physical driving using universal robot description format (URDF). Second, the motion controller was planned for the four-wheel omni-directional mobile platform based on the ROS. The CPS of the mobile platform was constructed using URDF. Furthermore, the environment map as well as the navigation and the localization tasks of the mobile platform was performed using the gmapping and navigation packages, respectively. Third, the monocular object pose estimation was planned based on deep learning, including the building of the object 3D model, the construction of the virtual scene using the game engine (Unreal Engine 4, UE4), and the synthesis of the falling data set for the 3D object’s model using the Nvidia deep learning dataset synthesizer (NDDS). The synthesized data set was then imported into the deep neural network to learn the weight parameters. The learned weight parameter of neural network was provided to estimate the pose of the object. Finally, the simultaneous simulation and implementation were realized by the concept of CPS. The monocular vision was used to assist the mobile manipulator for performing the task of object-picking.
論文目次 目錄
摘要 I
目錄 II
圖目錄 V
表目錄 VIII
第1章 序論 1
1.1研究動機與目的 1
1.2研究範圍 2
1.2.1機器人作業系統 2
1.2.2物件偵測與姿態估測 3
1.3論文架構 3
第2章 文獻探討 4
2.1移動機器手臂相關文獻 4
2.2機器人作業系統相關文獻 4
2.3物件偵測與姿態估測相關文獻 4
第3章 機器人作業系統 6
3.1移動機器手臂之機器人作業系統 6
3.2 ROS Control框架 7
3.3 ROS應用於移動機器手臂系統 10
第4章 機器手臂系統 12
4.1移動機器手臂系統 12
4.2七軸手臂與滑軌 12
4.3七軸手臂ROS規劃 13
4.3.1 Dynamixel-Workbench 14
4.3.2七軸手臂 Hardware Interface實現 15
4.4 滑軌ROS規劃 16
4.4.1 Modbus-RTU通訊設定 17
4.4.2滑軌Hardware Interface實現 17
4.5 手臂路徑規劃 18
4.5.1 Unified Robot Description Format (URDF) 18
4.5.2 MoveIt設定 19
第5章 全方位移動平台 24
5.1全方位移動平台 24
5.2移動平台ROS規劃 24
5.2.1 全方位移動平台Hardware Interface架構 24
5.2.2 全方位移動平台Hardware Interface實現 25
5.2.3 麥克納姆輪運動學 27
5.2.4 全方位移動平台Mecanum Wheel Contrlller實現 28
5.3雷射測距儀 29
5.4同步定位與建圖 29
5.5移動平台路徑規劃 29
第6章 深度神經網路物件姿態估測 31
6.1 Deep Object Pose Estimation(DOPE) 31
6.2 NVIDIA Deep learning Dataset Synthesizer (NDDS) 32
6.3 NDDS合成數據生成數據集 33
6.3.1建立模型 33
6.3.2模型匯入UE4遊戲引擎 35
6.3.3建立虛擬場景 35
6.3.4生成數據集 37
第7章 實驗結果與討論 38
7.1 MoveIt運行結果 38
7.2 GMapping建圖成果 41
7.3單物件偵測與姿態估測 43
7.4多物件偵測與姿態估測 48
7.5 估測失敗狀況 49
7.6 測試資料之準確率 51
7.6.1虛擬環境下測試資料之準確率 51
7.6.2 實際環境下測試資料之準確率 56
7.7 預期研究成果與討論 61
7.7.1目前研究成果 61
7.7.2 問題討論 62
參考文獻 63
附錄A 移動機器手臂的URDF檔案 66
附錄B Maxon Epos2驅動控制器 74

圖目錄
圖1.1 亞馬遜公司的供貨倉儲系統 1
圖1.2 移動機器手臂輔助挑揀貨品的任務 2
圖1.3 移動機器手臂系統 2
圖3.1 簡易機器人系統 6
圖3.2 ROS Control Overview 7
圖3.3 Hardware Interface Example 9
圖4.1 硬體通訊接口關係 12
圖4.2 ROBOTIS的Manipulator-H機器手臂 13
圖4.3 RS-485通訊界面與Modbus RTU通訊界面 13
圖4.4 七軸手臂 Hardware Interface規劃 14
圖4.5 七軸手臂Hardware Interface成員定義 16
圖4.6 滑軌Hardware Interface規劃 16
圖4.7 滑軌Hardware Interface成員定義 18
圖4.8 讀取URDF畫面 19
圖4.9 設定碰撞模型 20
圖4.10 定義虛擬軸 20
圖4.11 設定路徑規劃軸群 21
圖4.12 定義端校器 21
圖4.13 設定3D感測器 22
圖4.14 設定控制器種類 22
圖4.15 產生MoveIt專案 23
圖5.1 電腦與Epos通訊界面 24
圖5.2 全方位移動平台Hardware Interface規劃 25
圖5.3 VCS_OpenDevice定義 26
圖5.4 VCS_OpenSubDevice定義 26
圖5.5 全方位移動平台Hardware Interface成員定義 27
圖5.6 移動平台與麥克納姆輪定義 28
圖5.7 Mecanum Controller成員定義 29
圖5.8 ROS Navigation 架構 30
圖6.1 神經網路架構 31
圖6.2 Color(左上)、Depth(右上)、Semantic Segmentation(左下)、Instance Segmentation(右下) 32
圖6.3 漆罐與掃描場景 34
圖6.4 幾何模型(左)、紋理圖(中)、完整模型(右) 34
圖6.5 場景地形 35
圖6.6 草地場景不同視角圖 36
圖6.7 倉庫場景不同視角圖 36
圖6.8 居家場景不同視角圖 37
圖6.9 UE4運行畫面 37
圖7.1 MoveIt運行透過Rviz顯示螢幕畫面 38
圖7.2 手臂畫面 39
圖7.3 設定目標姿態 39
圖7.4 執行路徑規劃結果之螢幕畫面 40
圖7.5 執行路徑規劃結果之手臂畫面 40
圖7.6 手臂到達目標姿態畫面 41
圖7.7 建圖實際場景 41
圖7.8 建圖結果顯示於Rviz 42
圖7.9 建圖儲存之結果 42
圖7.10 估測場景及攝影機坐標系定義 43
圖7.11 單一鉗子估測結果(一) 43
圖7.12 單一鉗子估測結果(二) 44
圖7.13 單一鉗子估測結果(三) 44
圖7.14 單一鉗子估測結果(四) 45
圖7.15 單一鉗子估測結果(五) 45
圖7.16 單一漆罐估測結果(一) 46
圖7.17 單一漆罐估測結果(二) 46
圖7.18 單一漆罐估測結果(三) 47
圖7.19 單一漆罐估測結果(四) 47
圖7.20 單一漆罐估測結果(五) 48
圖7.21 多物件估測結果(一) 48
圖7.22 多物件估測結果(二) 49
圖7.23 多物件估測結果(三) 49
圖7.24 網球無法估測狀況 50
圖7.25 網球成功估測結果(一) 50
圖7.26 網球成功估測結果(二) 51
圖7.27 鉗子之虛擬環境下估測準確率(一) 52
圖7.28 鉗子之虛擬環境下估測準確率(二) 52
圖7.29 鉗子之虛擬環境下估測準確率(三) 53
圖7.30 漆罐之虛擬環境下估測準確率(一) 53
圖7.31 漆罐之虛擬環境下估測準確率(二) 54
圖7.32 漆罐之虛擬環境下估測準確率(三) 54
圖7.33 網球之虛擬環境下估測準確率(一) 55
圖7.34 網球之虛擬環境下估測準確率(二) 55
圖7.35 網球之虛擬環境下估測準確率(三) 56
圖7.36 鉗子之實際環境下估測準確率(一) 57
圖7.37 鉗子之實際環境下估測準確率(二) 57
圖7.38 鉗子之實際環境下估測準確率(三) 58

圖7.39 漆罐之實際環境下估測準確率(一) 58
圖7.40 漆罐之實際環境下估測準確率(二) 59
圖7.41 漆罐之實際環境下估測準確率(三) 59
圖7.42 網球之實際環境下估測準確率(一) 60
圖7.43 網球之實際環境下估測準確率(二) 60
圖7.44 網球之實際環境下估測準確率(三) 61

表目錄
表4.1 電腦型號及系統 12
表5.1 雷射測距儀規格 29
表6.1 3D掃描儀規格 33
表7.1 虛擬環境下測試資料之準確率 56
表7.2 實際環境下測試資料之準確率 61

參考文獻 References
[1] The unstructured environments in Amazon fulfillment warehouse, http://amazonpicking-challenge.org/amazon_pick.png (accessed on June 20, 2019)
[2] Kiva Robot, http://holeaker.blogspot.tw/2013/12/best-investmet-that-amazon-made.html. (accessed on June 20, 2019)
[3] Amazon Robotics, https://www.amazonrobotics.com/#/ (accessed on June 20, 2019)
[4] 周俊泓,移動機器手臂研發,淡江大學機械與機電工程學系碩士論文,2017。
[5] Robot Operating System, website, http://www.ros.org/
[6] Hilare 2bis, website, http://homepages.laas.fr/matthieu/robots/h2bis.shtml
[7] Little Helper, website, http://www.intorobotics.com/autonomous-industrial-mobile-manipulators-flexibility-in-industry-with-unlimited-workspace/
[8] MEKA Robotics, website, http://spectrum.ieee.org/automaton/robotics/humanoids/meka-robotics-announces-mobile-manipulator-with-kinect-and-ros
[9] Toyota HSR (Human Support Robot), website, http://www.toyota-global.com/innovation/ partner _robot/family_2.html
[10] Rollin' Justin, website, http://en.wikipedia.org/wiki/Justin_(robot)
[11] Robotis Manipulator-H, website, http://www.robotis.us/robotis-manipulator-h/
[12] 阿拉丁機器人, website, http://isci.cn.nctu.edu.tw/ResearchResult/index.html
[13] ABB ROS,http://wiki.ros.org/abb
[14] Baxter robot ROS,http://sdk.rethinkrobotics.com/wiki/Hello_Baxter
[15] Universal Robot ROS,http://wiki.ros.org/universal_robot
[16] PR2 ROS,http://wiki.ros.org/Robots/PR2
[17] Pepper ROS,http://wiki.ros.org/pepper
[18] 林鈺書,照護型機器人之ROS控制系統開發,國立台北科技大學機械工程系機電整合碩士論文,2017。
[19] Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2), 91-110.
[20] Dalal, N., & Triggs, B. (2005). Histograms of oriented gradients for human detection, The International Conference on Computer Vision & Pattern Recognition (CVPR'05), 1. pp. 886-893.
[21] Rublee, E., Rabaud, V., Konolige, K., & Bradski, G. R. (2011). ORB: An efficient alternative to SIFT or SURF. Paper presented at the Iccv, 11. (1) pp. 2.
[22] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. Paper presented at the Advances in Neural Information Processing Systems, pp. 1097-1105.
[23] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C., et al. (2016). Ssd: Single shot multibox detector. Paper presented at the European Conference on Computer Vision, pp. 21-37.
[24] Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. Paper presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 580-587.
[25] Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. ArXiv Preprint arXiv:1804.02767.
[26] Xiang, Y., Schmidt, T., Narayanan, V., & Fox, D. (2017). Posecnn: A convolutional neural network for 6d object pose estimation in cluttered scenes. ArXiv Preprint arXiv:1711.00199.
[27] Tremblay, J., To, T., Sundaralingam, B., Xiang, Y., Fox, D., & Birchfield, S. (2018). Deep object pose estimation for semantic robotic grasping of household objects. ArXiv Preprint arXiv:1809.10790.
[28] To, T., Tremblay, J., McKay, D., Yamaguchi, Y., Leung, K., Balanon, A., et al. NDDS: NVIDIA Deep Learning Dataset Synthesizer, 2018.
[29] Calli, B., Singh, A., Walsman, A., Srinivasa, S., Abbeel, P., & Dollar, A. M. (2015). The ycb object and model set: Towards common benchmarks for manipulation research, The 2015 International Conference on Advanced Robotics (ICAR), pp. 510-517.
[30] ROS turtlesim, website, http://wiki.ros.org/turtlesim
[31] Chitta, S., Marder-Eppstein, E., Meeussen, W., Pradeep, V., Tsouroukdissian, A. R., Bohren, J., et al. (2017). ros_control: A generic and simple control framework for ROS. The Journal of Open Source Software, 2(20), 456-456.
[32] Chitta, S., Sucan, I., & Cousins, S. (2012). Moveit! [ROS topics]. IEEE Robotics & Automation Magazine, 19(1), 18-19.
[33] DynamixelSDK https://github.com/ROBOTIS-GIT/DynamixelSDK
[34] Dynamixel-Workbench https://github.com/ROBOTIS-GIT/dynamixel-workbench
[35] Dynamixel-Workbench-msgs https://github.com/ROBOTIS-GIT/dynamixel-workbench-msgs
[36] 直得科技全系列標準型四列式滾珠線性滑軌, website, http://www.chieftek.com/chinese/ product-arhr.asp
[37] 精浚科技滾珠螺桿FSU Type , website, http://www.ome.com.tw/product-introduction/ 6-staf2/6-ball-screw
[38] libmodbus,https://libmodbus.org/
[39] Garage, W. (2009). Universal robot description format (URDF). Http://Www.Ros.org/urdf/, 2009
[40] Kinematics and Dynamics Library (KDL), http://wiki.ros.org/kdl
[41] Rviz, http://wiki.ros.org/rviz
[42] Gmapping, http://wiki.ros.org/gmapping
[43] Grisetti, G., Stachniss, C., & Burgard, W. (2007). Improved techniques for grid mapping with rao-blackwellized particle filters. IEEE Transactions on Robotics, 23(1), 34.
[44] Navigation, http://wiki.ros.org/navigation
[45] EPOS Command Library https://www.maxonmotor.com.tw
[46] Taheri, H., Qiao, B., & Ghaeminezhad, N. (2015). Kinematic model of a four mecanum wheeled mobile robot. International Journal of Computer Applications, 113(3), 6-9.
[47] Fox, D., Burgard, W., Dellaert, F., & Thrun, S. (1999). Monte carlo localization: Efficient position estimation for mobile robots. Aaai/iaai, 1999(343-349), 2-2.
[48] Tremblay, J., To, T., & Birchfield, S. (2018). Falling things: A synthetic dataset for 3D object detection and pose estimation. Paper presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 2038-2041.
[49] Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. ArXiv Preprint arXiv:1409.1556.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2021-08-08公開。
  • 同意授權瀏覽/列印電子全文服務,於2021-08-08起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信