系統識別號 | U0002-0808201916470200 |
---|---|
DOI | 10.6846/TKU.2019.00194 |
論文名稱(中文) | 基於深度強化學習在動態環境下之移動型機器人的避障 |
論文名稱(英文) | Obstacle Avoidance for Mobile Robot Based on Deep Reinforcement Learning in Dynamic Environment |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 電機工程學系機器人工程碩士班 |
系所名稱(英文) | Master's Program In Robotics Engineering, Department Of Electrical And Computer Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 107 |
學期 | 2 |
出版年 | 108 |
研究生(中文) | 阮明達 |
研究生(英文) | Ming-Da Ruan |
學號 | 606470077 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2019-07-15 |
論文頁數 | 72頁 |
口試委員 |
指導教授
-
李世安
委員 - 李世安 委員 - 翁慶昌 委員 - 馮玄明 |
關鍵字(中) |
深度強化學習 柔性行動者評論家 移動型機器人 避障 路徑規劃 |
關鍵字(英) |
Deep Reinforcement Learning Soft Actor-Critic Mobile Robot Obstacle Avoidance Path Planning |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
本論文實現一個基於深度強化學習之移動型機器人避障與到達指定目標點的方法,並提出一個有效的訓練方法,使移動型機器人能在靜態環境和動態環境中完成任務。此方法使用的深度強化學習演算法為柔性行動者評論家。本論文藉由設計此演算法的神經網路架構和環境狀態,使移動型機器人能更穩定的探索學習,並能有效完成指定的任務。訓練方法部分,本論文設計良好的獎勵函式和利用漸進式學習的方式。藉由慢慢增加訓練環境的複雜度,使機器人能快速適應複雜環境。透過此方法移動型機器人能達到降低避障策略的訓練時間。實驗結果部分,本論文所設計的神經網路結構、獎勵函式和訓練方法能夠在模擬環境中得到很好的結果。在靜態環境和複雜的動態環境中,移動型機器人都能穩定地避開障礙物並且以較少步數抵達目標點。根據實驗結果,證明本論文所設計的神經網路具有強健性。 |
英文摘要 |
This paper accomplishes a method based on deep reinforcement learning of mobile robot obstacle avoidance and specific goal position arrival. Moreover, propose an effective training method to complete tasks in both static and dynamic environments. The deep reinforcement learning algorithm used in this method is Soft Actor-Critic. This paper enables a mobile robot to explore learning more stable and effectively complete the specified tasks by designing the neural network architecture and environmental state of this algorithm. In the section of the training method, the ideas of this paper are creating a useful reward function and using progressive learning. The robot can quickly adapt to complex environments by slowly increasing the complexity of the training environment. Through this method, the mobile robot can achieve to reduce the training time of obstacle avoidance strategy. In the experimental results, the neural network structure, reward function, and training method designed in this theses can get good results in the simulation environment. In both static environment and complex dynamic environment, the mobile robot can stably avoid obstacles and reach to the target position in fewer steps. According to the experimental results, the design of the neural network in this thesis is proved to be robust. |
第三語言摘要 | |
論文目次 |
目錄 中文摘要 I 英文摘要 II 目錄 III 圖目錄 V 表目錄 VII 符號對照表 VIII 中英文對照表 XII 第一章 緒論 1 1.1 研究背景 1 1.2 研究動機 4 1.3 論文組織 5 第二章 實驗環境 6 2.1 模擬環境 6 2.2 實驗平台 8 2.3 整體系統架構 11 第三章 深度強化學習演算法 13 3.1 深度強化學習 13 3.2 行動者評論家 18 3.3 柔性行動者評論家 20 第四章 移動型機器人之避障策略 29 4.1 深度神經網路之設計 29 4.2 獎勵函式 41 4.3 訓練方法 49 第五章 實驗結果 52 5.1 靜態環境 52 5.2 動態環境 61 第六章 結論與未來展望 68 6.1 結論 68 6.2 未來展望 69 參考文獻 70 圖目錄 圖1.1、Shakey 1 圖1.2、移動型機器人三大研究議題之示意圖 2 圖1.3、Kiva機器人 3 圖1.4、Scout 3 圖1.5、FIRA 4 圖2.1、FIRA足球場規格圖 7 圖2.2、FIRA足球場之Gazebo模擬 7 圖2.3、第六代足球機器人模型 8 圖2.4、全方位輪 9 圖2.5、足球機器人之底部模型圖 9 圖2.6、全方位視覺影像 9 圖2.7、物件偵測示意圖 10 圖2.8、實體機器人與模擬機器人偵測障礙物比較圖 11 圖2.9、整體系統架構 11 圖3.1強化學習與環境互動示意圖 14 圖3.2、深度強化學習演算法分類架構圖 15 圖3.3、行動者評論家之架構圖 19 圖3.4、柔性行動者評論家之架構圖 27 圖3.5、柔性行動者評論家之流程圖 28 圖4.1、移動角度示意圖 30 圖4.2、機器人與目標點相對關係之示意圖 32 圖4.3、神經元架構示意圖 35 圖4.4、單層感知機示意圖 36 圖4.5、多層感知機示意圖 37 圖4.6、線性整流函數示意圖 38 圖4.7、雙曲正切函數示意圖 38 圖4.8、策略網路之架構 40 圖4.9、動作價值網路之架構 40 圖4.10、價值網路之架構 41 圖4.11、獎勵定義圖 42 圖4.12、觸發碰撞條件示意圖 44 圖4.13、訓練流程圖 49 圖4.14、動態環境示意圖 51 圖5.1、障礙物擺放之示意圖 52 圖5.2、機器人與目標點固定擺放之示意圖 53 圖5.3、機器人與目標點隨機擺放之示意圖 57 圖5.4、障礙物固定方向移動之示意圖 61 表目錄 表2.1、第六代機器人模型規格 8 表2.2、硬體系統規格表 12 表4.1、策略網路輸入表 31 表4.2、神經網路參數表 39 表5.1、靜態環境之實驗一的三方法行經路徑比較之一 54 表5.2、靜態環境之實驗一的三方法行經路徑比較之二 55 表5.3、靜態環境之實驗一的結果統計表 56 表5.4、靜態環境之實驗二的三方法行經路徑比較之一 58 表5.5、靜態環境之實驗二的三方法行經路徑比較之二 59 表5.6、靜態環境之實驗二的結果統計表 60 表5.7、動態環境之實驗一的三方法行經路徑比較之一 62 表5.8、動態環境之實驗一的三方法行經路徑比較之二 63 表5.9、動態環境之實驗一的結果統計表 64 表5.10、動態環境之實驗二的三方法行經路徑比較之一 65 表5.11、動態環境之實驗二的三方法行經路徑比較之二 66 表5.12、動態環境之實驗二的結果統計表 67 |
參考文獻 |
[1] Shakey, URL: http://www.ai.sri.com/shakey/ [2] Kiva robot, URL: https://robohub.org/meet-the-drone-that-already-delivers-your-packages-kiva-robot-teardown/ [3] Scout, URL: https://blog.aboutamazon.com/transportation/meet-scout [4] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” Neural Information Processing Systems (NIPS), pp. 1106-1114, 2012. [5] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, and G. Qstrovski, “Human-Level Control through Deep Reinforcement Learning,” Nature, vol. 518, pp. 529-533, 2015. [6] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. v. d. Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, and D. Hassabis, “Mastering the Game of Go with Deep Neural Networks and Tree Search,” Nature, vol. 529, pp. 484-489, 2016. [7] D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. Lillicrap, F. Hui, L. Sifre, G. v. d. Driessche, T. Graepel, and D. Hassabis, “Mastering The Game of Go without Human Knowledge,” Nature, vol. 550, pp. 354-359, 2017. [8] FIRA, URL: http://www.fira.net [9] N. Koenig and A. Howard, “Design and Use Paradigms for Gazebo, An Open-Source Multi-Robot Simulator,” IEEE International Conference on Robotics and Automation (ICRA), vol. 3, pp. 2149-2154, 2004. [10] ROS, URL: http://www.ros.org/ [11] 連振宇,基於全方位影像的距離測量之移動機器人避障,淡江大學電機工程學系碩士論文,2017年6月。 [12] C. J. C. H. Watkins and P. Dayan, “Q-Learning,” Machine Learning, vol. 8, pp. 279-292, 1992. [13] OpenAI, URL: https://spinningup.openai.com/en/latest [14] M. v. Otterlo and M. Wiering, “Reinforcement Learning and Markov Decision Processes,” In Reinforcement Learning, pp. 3-42, 2012. [15] T. Haarnoja, A. Zhou, P. Abbeel, and S. Levine,” Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with A Stochastic Actor,” arXiv:1801.01290, pp. 1-14, 2018. [16] T. Haarnoja, A. Zhou, K. Hartikainen, G. Tucker, S. Ha, J. Tan, V. Kumar, H. Zhu, A. Gupta, P. Abbeel, and S. Levine, “Soft Actor-Critic Algorithms and Applications,” arXiv:1812.05905, pp. 1-17, 2018. [17] T. Haarnoja, H. Tang, P. Abbeel, and S. Levine, “Reinforcement Learning with Deep Energy-Based Policies,” Proceedings of the 34th International Conference on Machine Learning, vol. 70, pp. 1352-1361, 2017. [18] S. Fujimoto, H. v. Hoof, and D. Meger, “Addressing Function Approximation Error in Actor-Critic Methods,” arXiv:1802.09477, pp. 1-15, 2018. [19] F. Rosenblatt, “The Perceptron: A Probabilistic Model for Information Storage and Organization in The Brain.” Psychological review, vol. 65, pp. 386, 1958. [20] X. Glorot, A. Bordes, and Y. Bengio, “Deep Sparse Rectifier Neural Networks,” International Conference on Artificial Intelligence and Statistics, vol. 15, pp.315-323, 2011. [21] O. Zhelo, J. Zhang, L. Tai, M. Liu, and W. Burgard, “Curiosity-Driven Exploration for Mapless Navigation with Deep Reinforcement Learning,” arXiv:1804.00456, pp. 1-5, 2018. [22] M. B. Hafez, C. Weber, and S. Wermter, “Curiosity-Driven Exploration Enhances Motor Skills of Continuous Actor-Critic Learner,” IEEE International Conference on Development and Learning and Epigenetic Robotics (ICDL-EpiRob), pp. 39-46, 2017. [23] D. Pathak, P. Agrawal, A. A. Efros, and T. Darrell, “Curiosity-Driven Exploration by Self-Supervised Prediction,” IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 488-489, 2017. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信