淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


系統識別號 U0002-1008202014524600
中文論文名稱 使用模糊獎勵之柔性行動者評論家的機械手臂軸孔裝配
英文論文名稱 Peg-in-Hole Assembly for Robot Manipulator Using Soft Actor-Critic with Fuzzy Reward
校院名稱 淡江大學
系所名稱(中) 電機工程學系機器人工程碩士班
系所名稱(英) Master’s Program In Robotics Engineering, Department Of Electrical And Computer Engineering
學年度 108
學期 2
出版年 109
研究生中文姓名 江騏安
研究生英文姓名 Chi-An Jiang
學號 607470209
學位類別 碩士
語文別 中文
第二語文別 英文
口試日期 2020-07-17
論文頁數 82頁
口試委員 指導教授-李祖添
指導教授-翁慶昌
委員-李祖添
委員-郭重顯
委員-劉智誠
中文關鍵字 軸孔裝配  機械手臂  柔性行動者評論家  模糊獎勵  力量/力矩感測器 
英文關鍵字 Peg-in-Hole Assembly  Robot Manipulator  Soft Actor-Critic  Fuzzy Reward  Force/Torque Sensor 
學科別分類
中文摘要 本論文針對七自由度機械手臂的軸孔裝配,提出一個使用模糊獎勵函數之柔性行動者評論家和一個有效的訓練方法,並於Gazebo模擬器上進行模擬測試,以說明所提出的方法確實可以讓機械手臂有效地完成軸孔裝配。主要有三個部分:(1) 機械手臂之運動控制、(2) 機械手臂之軸孔裝配、以及(3) 實驗。在機械手臂之運動控制上,本論文提出一個運動學解析方法,透過一組虛擬的三連桿,藉由正運動學與幾何方法來獲得機械手臂之逆運動學的解。此外,在工作空間之線性軌跡規劃中,採用四元數的線性球面插值來產生機械手臂之方位軌跡。在機械手臂之軸孔裝配上,本論文提出一個使用模糊獎勵之柔性行動者評論家的方法。在訓練過程中,使用一個漸進式的訓練方法來逐漸地增加軸孔裝配的困難度,使機械手臂可以快速地適應困難的環境。此外,在洞口位置加上一個常態分布來作為隨機誤差,以模擬實際環境中的不確定性。在實驗上,在Gazebo模擬器上進行一些模擬測試實驗,從實驗結果可知,具有模糊獎勵與隨機誤差的所提方法確實具有更好的性能。
英文摘要 In this thesis, a peg-in-hole assembly strategy for a 7 degrees of freedom robot manipulator using soft actor-critic with a fuzzy reward function and an effective training method are proposed. The simulation test is performed on the Gazebo simulator to illustrate that the proposed method indeed enables the robot manipulator to effectively complete the peg-in-hole assembly. There are three main parts: (1) motion control of the robot manipulator, (2) peg-in-hole assembly strategy of the robot manipulator, and (3) experiment. In the motion control of the robot manipulator, a kinematics analytical solution method is proposed. The forward kinematics and the geometric method are applied to obtain the inverse kinematics solution of the robot manipulator by assuming a set of virtual three links. In addition, in the linear trajectory planning of the workspace, slerp with quaternion is used to generate the orientation trajectory of the robot manipulator. In the peg-in-hole assembly of the robot manipulator, a method of soft actor-critic with a fuzzy reward is proposed. In the training process, a progressive training method is proposed to gradually increase the difficulty of completing the peg-in-hole assembly so that the robot manipulator can quickly adapt to difficult environments. In addition, a normal distribution is added to the position of the hole as a random error to simulate the uncertainty in the actual environment. In the experiment, some simulation tests are carried out on the Gazebo simulator. It can be seen from the experimental results that the proposed method with fuzzy rewards and random errors does have better performance.
論文目次 目錄
中文摘要 Ⅰ
英文摘要 Ⅱ
目錄 III
圖目錄 V
表目錄 VII
學術名詞名稱之中英文對照表 IX
符號對照表 XIV
第一章 緒論 1
1.1 研究背景 1
1.1.1 七自由度機械手臂之應用 1
1.1.2 機器學習之發展 2
1.1.3 軸孔裝配之演變 4
1.2 研究動機與目的 5
1.3 論文架構 6
第二章 系統架構與軟硬體設備 7
2.1 機構、電控系統、以及軟硬體設備 7
2.2 3D動態模擬環境 12
2.3 運動策略 14
第三章 機械手臂之運動控制 16
3.1 機械手臂末端方位 16
3.2 機械手臂運動學 17
3.2.1 DH連桿參數表 19
3.2.2 正運動學 22
3.2.3 逆運動學 26
3.3 工作空間線性軌跡規劃 34
3.3.1 方位之四元數表示法 34
3.3.2 四元數之球面線性插值 35
第四章 機械手臂之軸孔裝配策略 37
4.1 深度強化學習 37
4.1.1 行動者評論家之概述 39
4.1.2 柔性行動者評論家之演算法 41
4.2 深度神經網路之設計 45
4.2.1 策略網路之輸出 46
4.2.2 策略網路之輸入 47
4.2.3 神經網路模型 51
4.2.4 獎勵函式 58
4.3 訓練方法 66
4.3.1 訓練環境 67
第五章 實驗結果 69
5.1 固定初始位置與方位及洞口之目標位置有隨機誤差 70
5.2 隨機初始位置與方位及洞口之目標位置有隨機誤差 71
5.3 不同的網路輸入和有無模糊獎勵 73
5.4 最終實驗環境之神經網路訓練結果 74
第六章 結論與未來展望 78
6.1 結論 78
6.2 未來展望 79
參考文獻 80

圖目錄
圖1.1、德國 DLR-LWR III 七自由度機械手臂 2
圖2.1、機械手臂之結構示意圖 8
圖2.2、機械手臂之結構尺寸示意圖 8
圖2.3、機械手臂之電控系統架構圖 10
圖2.4、2F-85二指夾具之實體圖 11
圖2.5、FT-300力量/力矩感測器之實體圖 11
圖2.6、以Gazebo模擬器所建構之機械手臂的3D模擬環境 13
圖2.7、機械手臂之運動策略架構圖 14
圖3.1、本論文之尤拉角示意圖 17
圖3.2、冗餘機械手臂冗餘軸示意圖 19
圖3.3、軸座標系 "zi-1" 與 "zi" 無共平面示意圖 20
圖3.4、軸座標系 "zi-1" 與 "zi" 互相平行示意圖 20
圖3.5、軸座標系 "zi-1" 與 "zi" 相交示意圖之情況 21
圖3.6、機械手臂各軸座標系配置圖 21
圖3.7、正運動學冗餘角角度計算示意圖 25
圖3.8、機械手臂關節及連桿參數示意圖 28
圖3.9、腕關節之球型關節示意圖 29
圖3.10、逆運動學假設之虛擬三連桿示意圖 30
圖3.11、二維平面之兩向量線性插值示意圖 36
圖4.1、強化學習之基本架構圖 38
圖4.2、本論文之柔性行動者評論家架構圖 38
圖4.3、行動者評論家之架構圖 40
圖4.4、神經元架構示意圖 52
圖4.5、單層感知機架構示意圖 53
圖4.6、多層感知機架構示意圖 54
圖4.7、線性整流函數示意圖 55
圖4.8、帶泄露線性整流函數示意圖 56
圖4.9、雙曲正切函數示意圖 56
圖4.10、第一層模糊密集獎勵架構圖 62
圖4.11、第二層模糊密集獎勵架構圖 63
圖4.12、模糊密集獎勵整體架構圖 64
圖4.13、力與力矩解模糊化結果圖 64
圖4.14、移動與當前解模糊化結果圖 65
圖4.15、模糊密集獎勵 "Rf" 解模糊化結果圖 65
圖4.16、軸孔裝配之神經網路訓練流程圖 67
圖5.1、模擬環境之示意圖 69
圖5.2、固定初始位置之神經網路訓練的結果圖 70
圖5.3、隨機初始位置之示意圖 72
圖5.4、距離洞口位置上方5mm之隨機初始位置的示意圖 72
圖5.5、隨機初始位置之神經網路訓練的結果圖 72
圖5.6、最終實驗環境之神經網路訓練流程圖 75
圖5.7、最終實驗環境之神經網路訓練的結果圖 76
圖5.8、力量感測器數值回授變化圖 77
圖5.9、力矩感測器數值回授變化圖 77

表目錄
表2.1、機械手臂之硬體規格表 9
表2.2、2F-85二指夾具之硬體規格表 11
表2.3、FT-300力量/力矩感測器之硬體規格表 11
表2.4、個人電腦之硬體規格表 12
表2.5、模擬環境之軟體版本 12
表3.1、DH參數表 22
表3.2、機械手臂之DH連桿參數表 22
表3.3、機械手臂關節及連桿參數對照表 27
表3.4、逆運動學假設之虛擬三連桿參數對照表 30
表3.5、虛擬三連桿之連桿參數表 32
表4.1、策略網路之輸出表 47
表4.2、策略網路之輸入表 48
表4.3、本論文之神經網路參數表 57
表4.4、模糊密集獎勵之輸入與輸出和範圍對應表 61
表4.5、力與力矩之模糊規則表 61
表4.6、當前與移動之模糊規則表 62
表4.7、模糊密集獎勵之模糊規則表 63
表4.8、神經網路訓練超參數 66
表5.1、固定初始位置之成功率的里程表 71
表5.2、固定初始位置於1,000回合有無隨機誤差之軸孔裝配的成功率 71
表5.3、隨機初始位置之成功率的里程表 73
表5.4、隨機初始位置於1,000回合有無隨機誤差之軸孔裝配的成功率 73
表5.5、於1,000回合無模糊獎勵訓練之成功率的比較表 74
表5.6、於1,000回合有模糊獎勵訓練之成功率的比較表 74
表5.7、彩色深度攝影機Intel® RealSense d435i之硬體規格表 75
表5.8、最終實驗環境之神經網路訓練時間表 76
表5.9、最終實驗環境之神經網路之軸孔裝配的成功率 76

參考文獻 [1] J.F. Engelberger, Robotics in Service, MIT Press, 1989.
[2] DLR:https://www.dlr.de/rm/en/desktopdefault.aspx/tabid-12464/#gallery/29165
[3] A. Krizhevsky, I. Sutskever, and G.E. Hinton, “Imagenet Classification with Deep Convolutional Neural Networks,” in Proc. Advances Neural Inf. Process. Syst., pp.1106-1114, 2012.
[4] V. Mnih, K. Kavukcuoglu, D. Silver, A.A. Rusu, J. Veness, M.G. Bellemare, A. Graves, M. Riedmiller, A.K. Fidjeland, and G. Ostrovski, “Human-Level Control through Deep Reinforcement Learning,” Nature, vol. 518, pp. 529-533, 2015.
[5] T.P. Lillicrap, J.J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, “Continuous Control with Deep Reinforcement Learning,” arXiv:1509.02971v5, 2015.
[6] V.R. Konda and J.N. Tsitsiklis, “Actor-Critic Algorithms,” in Advances in Neural Information Processing Systems, pp. 1008-1014, 2000.
[7] T. Haarnoja, A. Zhou, P. Abbeel, and S. Levine, “Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor,” arXiv:1801.01290v2, 2018.
[8] C. Son, “Optimal Planning Technique with a Fuzzy Coordinator for an Intelligent Robot’s Part Assembly,” IEE Proceedings-Control Theory and Applications, vol. 144, pp. 45-52, 1997.
[9] B. Radin and D. Gershon, “Fuzzy Compliance Control of Robotic Assembly Tasks,” in Proceedings of 3rd IEEE International Conference on Fuzzy Systems, pp. 819-824, 1994.
[10] V. Gullapalli, J.A. Franklin, and H. Benbrahim, “Acquiring Robot Skills via Reinforcement Learning,” IEEE Control Systems Magazine, vol. 14,pp. 13-24, 1994.
[11] J. Zhang and A. Knoll, “A Two-Arm Situated Artificial Communicator for Human-Robot Cooperative Assembly,” IEEE Transactions on Industrial Electronics, vol. 50, pp. 651-658, 2003.
[12] R. Cortesao, R. Koeppe, U. Nunes, and G. Hirzinger, “Data Fusion Forcompliant Motion Tasks Based on Human Skills,” in IEEE/RSJ International Conference on Intelligent Robots and Systems, vol. 2, pp. 1529-1534, 2002.
[13] 2F-85: https://robotiq.com/products/2f85-140-adaptive-robot-gripper
[14] FT-300: https://robotiq.com/products/ft-300-force-torque-sensor
[15] 簡紹宇,基於強化學習之雙臂機器人的自碰撞避免與運動控制,淡江大學電機工程學系碩士論文(指導教授:翁慶昌、劉智誠),2019。
[16] 賴宥澄,七自由度冗餘機械手臂的系統開發與運動控制設計,淡江大學電機工程學系碩士論文(指導教授:翁慶昌),2016。
[17] D.S. Brezov, C.D. Mladenova, and I.M. Mladenov, “New Perspective on the Gimbal Lock Problem,” in AIP Conference Proceedings, vol. 1570, pp. 367-374, American Institute of Physics, 2013.
[18] L.P. Kaelbling, M.L. Littman, and A.W. Moore, “Reinforcement Learning: A Survey,” Journal of Artificial Intelligence Research, vol. 4, pp. 237-285, 1996.
[19] T. Haarnoja, A. Zhou, K. Hartikainen, G. Tucker, S. Ha, J. Tan, V. Kumar, H. Zhu, A. Gupta, P. Abbeel, et al., “Soft Actor-Critic Algorithms and Applications,” arXiv preprint arXiv:1812.05905, 2018.
[20] T. Haarnoja, S. Ha, A. Zhou, J. Tan, G. Tucker, and S. Levine, “Learning to Walk via Deep Reinforcement Learning,” arXiv preprint arXiv:1812.11103, 2018.
[21] 阮明達,基於深度強化學習在動態環境下之移動型機器人的避障,淡江大學電機工程學系碩士論文(指導教授:李世安),2019。
[22] F. Rosenblatt, “The Perceptron: A Probabilistic Model for Information Stor-Age and Organization in the Brain,” Psychological Review, vol. 65, no. 6, p. 386, 1958.
[23] B. Xu, N. Wang, T. Chen, and M. Li, “Empirical Evaluation of Rectified Activations in Convolutional Network,” arXiv:1505.00853, 2015.
[24] A.L. Maas, A.Y. Hannun, and A.Y. Ng, “Rectifier Nonlinearities Improve Neural Network Acoustic Models,” Proc. Icml, p. 3, 2013.
[25] J. Xu, Z. Hou, W. Wang, B. Xu, K. Zhang, and K. Chen, “Feedback Deep Deterministic Policy Gradient with Fuzzy Reward for Robotic Multiple Peg-In-Hole Assembly Tasks,” IEEE Transactions on Industrial Informatics, vol. 15, no. 3, pp. 1658-1667, 2018.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2023-07-31公開。
  • 同意授權瀏覽/列印電子全文服務,於2023-07-31起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信