§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1008202016115400
DOI 10.6846/TKU.2020.00255
論文名稱(中文) 基於柔性行動者評論家之雙臂機器人的碰撞避免
論文名稱(英文) Collision Avoidance for Dual-Arm Robot Based on Soft Actor-Critic
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 電機工程學系碩士班
系所名稱(英文) Department of Electrical and Computer Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 108
學期 2
出版年 109
研究生(中文) 劉岳庭
研究生(英文) Yue-Ting Liu
學號 607460085
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2020-07-14
論文頁數 83頁
口試委員 指導教授 - 翁慶昌
委員 - 李世安
委員 - 馮玄明
關鍵字(中) 雙臂機器人
冗餘機械手臂
碰撞避免
深度強化學習
柔性行動者評論家
關鍵字(英) Dual-Arm Robot
Redundant Robot Manipulator
Collision Avoidance
Deep Reinforcement Learning
Soft Actor-Critic
第三語言關鍵字
學科別分類
中文摘要
本論文針對雙臂機器人,提出一個基於柔性行動者評論家之碰撞避免的方法和一個訓練方法。主要有兩個部分:(1) 運動控制以及(2) 基於柔性行動者評論家之碰撞避免。在運動控制部分,本論文透過一組虛擬之三連桿的假設,藉由正運動學與幾何方法來獲得七自由度冗餘手臂之逆運動學的解。在基於柔性行動者評論家之碰撞避免的部分,雙臂機器人之左臂與右臂是各由一個神經網路來控制末端點之移動向量和姿態。本論文首先在Gazebo模擬器中建構了一個3D動態模擬環境來作為神經網路之訓練環境,使用Gazebo模擬器之感測器來偵測機器人與環境之距離,以及使用一個基於連桿資訊的偵測方式來避免機器人自身之碰撞。由於直接訓練兩個手臂之神經網路會讓訓練環境過於複雜,因此本論文建立兩個執行緒來分別訓練左臂與右臂之神經網路,並且將其中一個手臂視為另一個手臂之環境物件來降低訓練過程中的複雜度。此外,本論文選擇一些合適之神經網路輸入以及設計一些獎勵函式來讓所訓練完成的神經網路可以控制雙臂機器人,使其在任務執行的過程中能夠有效地避免碰撞。
英文摘要
In this thesis, a collision avoidance method and a training method based on soft actor-critic are proposed for a dual-arm robot. There are two main parts: (1) motion control and (2) collision avoidance based on soft actor-critic. In the motion control, a set of virtual three-link assumptions is used to obtain the inverse kinematics solution of the seven-degree-of-freedom redundant robot manipulator through the positive kinematics and geometric methods. In the collision avoidance based on soft actor-critic, the left-arm and right-arm of the dual-arm robot are each controlled by a neural network to control the movement vector and posture of the end point. A 3D dynamic simulation environment is first constructed on the Gazebo simulator as the training environment of the neural networks. The sensor of the Gazebo simulator is used to obtain the distances between the robot and the environment and a detection method based on link information is used to avoid the collision of the robot itself and the environment. Because directly training the neural networks of the two arms will make the training environment too complicated, two threads are established to train the neural networks of the left-arm and the right-arm separately, and one arm is treated as an environmental object of the other arm to reduce the complexity of the training process. In addition, some appropriate neural network inputs are selected and some reward functions are designed to let the trained neural networks can control the dual-arm robot to effectively avoid collisions during the task execution.
第三語言摘要
論文目次
目錄	
中文摘要	Ⅰ
英文摘要	Ⅱ
目錄	III
圖目錄	VII
表目錄	X
學術名詞名稱之中英文對照表	XI
符號對照表	XIII
第一章 緒論	1
1.1 研究背景	1
1.1.1 雙臂機器人之應用	1
1.1.2 機器學習的發展	2
1.2 研究動機	4
1.3 論文架構	5
第二章 模擬環境與實驗平台	6
2.1 機械手臂	6
2.2 模擬環境	9
2.3 軟硬體系統架構	10
第三章 機械手臂之運動學	12
3.1 D-H連桿參數表	12
3.1.1 "Zi-1" 與"Zi" 無共平面	12
3.1.2 "Zi-1" 與"Zi" 相互平行	13
3.1.3 "Zi-1" 與"Zi" 相交	14
3.2 正運動學	16
3.2.1 機械手臂末端點之位置與方位	17
3.2.2 機械手臂之冗餘角度	19
3.3 逆運動學	21
3.3.1 機械手臂關節分析	21
3.3.2 逆運動學求解	26
3.4 雙臂機器人運動學	28
3.5 姿態四元數表示法	32
第四章 類神經網路	33
4.1 類神經網路概念	33
4.1.1 單層神經網路	34
4.1.2 多層神經網路	34
4.2 卷積神經網路	35
4.2.1 卷積神經網路之特性	36
4.2.2 卷積神經網路之架構	36
4.2.3 激勵函數	39
第五章 機械手臂之避碰方法	43
5.1 深度強化學習	43
5.1.1 行動者評論家之概念	44
5.1.2 柔性行動者評論家演算法	45
5.2 網路架構	48
5.2.1 網路模型	49
5.2.2 網路輸入之設計	51
5.2.3 網路輸出	55
5.2.4 獎勵函式	55
5.3 碰撞偵測	57
5.3.1 機械手臂之幾何模型簡化	57
5.3.2 無共平面之線段分析	59
5.3.3 共平面之線段分析	61
5.3.4 環境碰撞偵測	63
5.4 訓練方法	64
5.4.1 雙代理人訓練	65
5.4.2 漸進式學習	67
第六章 實驗結果	69
6.1 實驗環境及流程	69
6.1.1 實驗環境及設定	69
6.1.2 實驗流程	70
6.2 基本SAC網路模型之障礙物資訊	71
6.3 影像輸入SAC網路模型之障礙物資訊	72
6.4 兩種網路模型比較	72
6.5 測試結果	73
第七章 結論與未來展望	80
7.1 結論	80
7.2 未來展望	81
參考文獻	82
 
圖目錄
圖 1.1、Baxter雙臂協作型機器人[2]	2
圖 2.1、機械手臂之結構示意圖	7
圖 2.2、機械手臂之尺寸示意圖	7
圖 2.3、雙臂機器人示意圖	8
圖 2.4、機械手臂之模擬環境圖	10
圖 2.5、軟硬體系統之架構圖	11
圖 3.1、"Zi-1" 與"Zi" 無共平面之示意圖	13
圖 3.2、"Zi-1" 與"Zi" 相互平行之示意圖	14
圖 3.3、"Zi-1" 與"Zi" 相交之狀況一之示意圖	14
圖 3.4、"Zi-1" 與"Zi" 相交之狀況二之示意圖	15
圖 3.5、七自由度機械手臂座標系配置	15
圖 3.6、本論文之尤拉角示意圖	18
圖 3.7、正運動學冗餘角角度計算示意圖	20
圖 3.8、機械手臂關節及連桿參數示意圖	23
圖 3.9、手臂球型關節圖	24
圖 3.10、額外假設之三連桿結構圖	25
圖 3.11、雙臂機器人基座標與原點示意圖	29
圖3.12、雙臂機器人左右手臂之配置與基座標示意圖	30
圖4.1、神經元架構之示意圖	34
圖4.2、單層神經網路之示意圖	34
圖4.3、多層神經網路之示意圖	35
圖4.4、卷積神經網路之架構圖	37
圖4.5、卷積運算的過程之示意圖	38
圖4.6、最大池化的運算之示意圖	38
圖4.7、卷積層全連接至全連接層的過程之示意圖	39
圖4.8、ReLU激勵函數之示意圖	40
圖4.9、Leaky ReLU激勵函數之示意圖	41
圖4.10、Tanh激勵函數之示意圖	42
圖 5.1、強化學習基本架構圖	44
圖 5.2、Actor-Critic架構圖	45
圖 5.3、本論文Soft Actor-Critic架構圖	46
圖 5.4、影像輸入SAC模型圖	50
圖 5.5、簡化之簡單幾何模型示意圖	57
圖5.6、簡化模型之距離關係圖	58
圖5.7、線段距離關係圖	59
圖5.8、兩線段與公垂線關係圖	60
圖5.9、共平面線段與垂線關係圖	62
圖 5.10、手臂碰撞避免訓練流程圖	65
圖 5.11、手臂雙代理人流程圖	67
圖 6.1、模擬環境示意圖	69
圖 6.2、實驗流程圖	71
圖 6.3、障礙物資訊圖(八個邊緣點)	71
圖 6.4、障礙物資訊圖(深度影像)	72
圖 6.5、使用訓練完成的神經網路之手臂移動過程的分解圖	74
圖 6.6、使用工作空間軌跡規劃之手臂移動過程的分解圖	75
圖 6.7、手臂各關節示意圖	76
圖 6.8、左小臂與障礙物距離	77
圖 6.9、左手腕與障礙物距離	78
圖 6.10、右小臂與障礙物距離	78
圖 6.11、右手腕與障礙物距離	79
 
表目錄
表 2.1、雙臂機器人之硬體規格表	8
表 2.2、個人電腦之規格表	11
表3.1、四種D-H參數及說明	16
表3.2、七自由度冗餘機械手臂D-H連桿參數表	16
表3.3、機械手臂關節及連桿參數對照表	22
表 3.4、三連桿之連桿表	26
表 3.5、左手臂D-H連桿表	31
表 3.6、右手臂D-H連桿表	31
表 5.1、SAC神經網路參數表	49
表 5.2、影像輸入SAC神經網路參數表	50
表 5.3、策略網路輸入表	51
表 5.4、各連桿之間最小距離表	53
表 5.5、策略網路輸出表	55
表 5.6、稀疏獎勵表	56
表 5.7、兩線段最短距離數學式與關係表	61
表 5.8、與線段相交之垂線長度數學式對照表	63
表 5.9、線段端點到端點距離數學式對照表	63
表 6.1、環境規格表	70
表 6.2、網路模型比較表	73
參考文獻
[1]	J.F. Engelberger, Robotics in Service, MIT Press, 1989.
[2]	Rethink Robotics Baxter, URL: https://www.generationrobots.com/en/401514-baxter-robot-research-prototype.html
[3]	A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao. “Yolov4: Optimal speed and accuracy of object detection,” arXiv preprint arXiv:2004.10934, 2020
[4]	J. Gehring, M. Auli, D. Grangier, D. Yarats, and Y.N. Dauphin. “Convolutional sequence to sequence learning,” arXiv preprint arXiv:1705.03122v2, 2017.
[5]	E. Wu and H. Koike. “FuturePose - Mixed reality martial arts training using real-time 3D human pose forecasting with a RGB camera,”  IEEE Winter Conference on Applications of Computer Vision (WACV), pp.1384–1392, 2019
[6]	A. Krizhevsky, I. Sutskever, and G.E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Proc. Advances Neural Inf. Process. Syst., pp.1106-1114, 2012.
[7]	V. Mnih, K. Kavukcuoglu, D. Silver, A.A. Rusu, J. Veness, M.G. Bellemare, A. Graves, M. Riedmiller, A.K. Fidjeland, and G. Ostrovski, “Human-level control through deep reinforcement learning,” Nature, vol. 518, pp. 529-533, 2015.
[8]	T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, “Continuous control with deep reinforcement learning,” arXiv:1509.02971v5, 2015.
[9]	V.R. Konda and J.N. Tsitsiklis, “Actor-critic algorithms,” Advances in Neural Information Processing Systems, pp. 1008-1014, 2000.
[10]	T. Haarnoja, A. Zhou, P. Abbeel, and S. Levine, “Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor,” arXiv:1801.01290v2, 2018.
[11]	T. Pham, G.D. Magistris, and R. Tachibana, “Optlayer - Practical constrained optimization for deep reinforcement learning in the real world,” IEEE International Conference on Robotics and Automation (ICRA), pp. 6236-6243, 2018. 
[12]	簡紹宇,基於深度強化學習之雙臂機器人的字碰撞避免與運動控制,淡江大學電機工程學系碩士論文(指導教授:翁慶昌、劉智誠),2019。
[13]	賴宥澄,七自由度冗餘機械手臂的系統開發與運動控制設計,淡江大學電機工程學系碩士論文(指導教授:翁慶昌),2016。
[14]	H. L. Pham, V. Perdereau, B. V. Adorno, and P. Fraisse, “Position and orientation control of robot manipulators using dual quaternion feedback,” IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 658-663, 2010.
[15]	呂嘉翔,雙臂機器人之運動控制系統與碰撞偵測,淡江大學電機工程學系碩士論文(指導教授:翁慶昌、許駿飛),2018。
論文全文使用權限
校內
校內紙本論文延後至2023-07-31公開
同意電子論文全文授權校園內公開
校內電子論文延後至2023-07-31公開
校內書目立即公開
校外
同意授權
校外電子論文延後至2023-07-31公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信