§ 瀏覽學位論文書目資料
系統識別號 U0002-2708201910545400
DOI 10.6846/TKU.2019.00928
論文名稱(中文) 基於深度強化學習之足球機器人的進攻策略與動態避障
論文名稱(英文) Offensive Strategy and Dynamic Obstacle Avoidance for Soccer Robot Based on Deep Reinforcement Learning
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 電機工程學系機器人工程碩士班
系所名稱(英文) Master's Program In Robotics Engineering, Department Of Electrical And Computer Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 107
學期 2
出版年 108
研究生(中文) 陳少瑜
研究生(英文) Shao-Yu Chen
學號 605470151
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2019-07-15
論文頁數 70頁
口試委員 指導教授 - 翁慶昌
共同指導教授 - 許駿飛
委員 - 馮玄明
委員 - 劉智誠
委員 - 許駿飛
關鍵字(中) 深度強化學習
機器人作業系統
足球機器人
Gazebo模擬器
柔性行動者評論家
關鍵字(英) Deep Reinforcement Learning
Robot Operating System (ROS)
Soccer Robot
Gazebo Simulator
Soft Actor-Critic (SAC)
第三語言關鍵字
學科別分類
中文摘要
本論文設計與實現了一個基於深度強化學習(Deep Reinforcement Learning, DRL)之足球機器人的進攻策略與動態避障的方法。提出一個基於柔性行動者評論家(Soft Actor-Critic, SAC)之訓練方法,其可以有效地自我學習一個足球機器人之最佳進攻策略來有效地避免對方機器人的攔截以及提高進球率。本論文使用機器人作業系統(Robot Operating System, ROS)的Gazebo模擬器建構了一個動態模擬環境來訓練神經網路,這個環境是依據RoboCup(機器人世界盃組織)中型組之規則所實現的。當輸入場地及對方機器人之資訊後,所提出之方法就可以在目前狀態下決定足球機器人之一個最佳行動。在實驗結果的部分,本論文設計了四個實驗場景來訓練神經網絡,並且比較這四種情景之進球率與訓練所需回合數來說明所提方法的有效性。
英文摘要
In this thesis, an offensive strategy and a dynamic obstacle avoidance method for soccer robots are designed and implemented based on Deep Reinforcement Learning (DRL). A training method based on the Soft Actor-Critic (SAC) is proposed to effectively self-learn an optimal offensive strategy for the soccer robot to effectively avoid the interception of the opponent’s robot to increase the goal rate. The Gazebo simulator of the Robot Operating System (ROS) is used to construct a dynamic simulation environment to train neural networks. The environment is implemented based on the rules of RoboCup (Robot World Cup Initiative) Middle Sized League. When the information of the environment and the opponent’s robot is inputted, the proposed method can determine the best action of the soccer robot in the current state. In the experimental results, four experimental scenarios are designed to train the neural networks. The goal rate and the number of episodes required for training in these four scenarios are compared to illustrate the effectiveness of the proposed method.
第三語言摘要
論文目次
目錄
中文摘要	I
英文摘要	II
目錄	III
圖目錄	V
表目錄	VIII
符號對照表	IX
中英文對照表	XII
第一章	緒論	1
1.1 研究背景	1
1.2 研究動機	5
1.3 論文架構	6
第二章	系統介紹	7
2.1 硬體系統架構	7
2.2 機器人作業系統之簡介	10
2.3 Gazebo模擬器介紹	16
2.4 軟體策略架構介紹	19
2.5 足球機器人之ROS架構	21
第三章	研究方法	23
3.1 強化學習	23
3.2 行動者評論家	25
3.3 柔性行動者評論家	27
第四章	實驗結果	34
4.1 實驗平台與環境建置	34
4.2 實驗設計	37
4.3 實驗驗證	45
第五章	結論與未來展望	65
5.1 結論	65
5.2 未來展望	66
參考文獻	67

圖目錄
圖 1.1、RoboCup	2
圖 1.2、FIRA	2
圖 1.3、場地平面圖	3
圖 1.4、比賽足球	3
圖 1.5、深度Q網路的輸出入之關係圖	4
圖 2.1、機器人外觀	7
圖 2.2、硬體架構圖	7
圖 2.3、全方位影像	8
圖 2.4、全方位移動平台	9
圖 2.5、史丹佛大學開發之機器人	10
圖 2.6、使用ROS實現之機器人	11
圖 2.7、ROS系統通訊結構圖	13
圖 2.8、link與joint示意圖	17
圖 2.9、Gazebo架構	18
圖 2.10、軟體策略架構圖	20
圖 2.11、足球機器人之ROS架構圖	22
圖 3.1、強化學習演算法之示意圖	23
圖 3.2、行動者評論家方法結構圖	25
圖 4.1、第六代足球機器人模型	35
圖 4.2、實驗環境正視圖	36
圖 4.3、實驗環境等視圖	36
圖 4.4、移動角度示意圖	37
圖 4.5、柔性評論者行動家之輸出動作設計	40
圖 4.6、訓練場景示意圖	45
圖 4.7、訓練流程圖	46
圖 4.8、實驗一之實驗場景	47
圖 4.9、實驗一之混合獎勵折線圖	48
圖 4.10、實驗一之回合獎勵折線圖	48
圖 4.11、實驗一之進球率里程圖	49
圖 4.12、實驗二之實驗場景	50
圖 4.13、實驗二之混合獎勵折線圖	51
圖 4.14、實驗二之回合獎勵折線圖	51
圖 4.15、實驗二之進球率里程圖	52
圖 4.16、實驗三之實驗場景	53
圖 4.17、實驗三之混合獎勵折線圖	54
圖 4.18、實驗三之回合獎勵折線圖	54
圖 4.19、實驗三之進球率里程圖	55
圖 4.20、實驗四之實驗場景	56
圖 4.21、實驗四之混合獎勵折線圖	57
圖 4.22、實驗四之回合獎勵折線圖	57
圖 4.23、實驗四之進球率里程圖	58
圖 4.24、進球率里程比較圖	59
圖 4.25、有無運球次數比較圖	60
圖 4.26、單步獎勵之權重因子比較圖	61
圖 4.27、狀態輸入比較圖	63
 
表目錄
表 2.1、核心處理系統規格表	9
表 4.1、第六代機器人與足球模型規格	35
表 4.2、柔性評論者行動家之輸入狀態設計	39
表 4.3、神經網路參數表	44
表 4.4、實驗一之模擬進攻統計表	47
表 4.5、實驗一之進球率里程表	49
表 4.6、實驗二之模擬進攻統計表	50
表 4.7、實驗二之進球率里程表	52
表 4.8、實驗三之模擬進攻統計表	53
表 4.9、實驗三之進球率里程表	55
表 4.10、實驗四之模擬進攻統計表	56
表 4.11、實驗四之進球率里程表	58
表 4.12、實驗四之模擬進攻統計表	59
表 4.13、輸入狀態表	62
表 4.14、狀態輸入比較表	63
表 4.15、相關研究比較	64
參考文獻
[1]	RoboCup, URL: http://www.robocup.org
[2]	FIRA, URL: http://www.fira.net
[3]	A. Mackworth, “On seeing robots,” World Scientific Press Computer Vision: System, Theory, and Applications, pp. 1-13, 1993.
[4]	FIFA, URL: http://www.fifa.com
[5]	A. Krizhevsky, I. Sutskever, and G.E. Hinton, “Imagenet Classification with Deep Convolutional Neural Networks,” in Proc. Advances Neural Inf. Process. Syst., pp.1106-1114, 2012.
[6]	V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M.G. Bellemare, A. Graves, M. Riedmiller, A.K. Fidjeland, and G. Ostrovski, “Human-Level Control through Deep Reinforcement Learning,” Nature, vol. 518, pp. 529-533, 2015.
[7]	J. I. Zannatha, L. F. Medina, R. C. Limon, and P. M. Alvarez, “Behavior Control for a Humanoid Soccer Player Using Webots,” 21st IEEE International Conference on Electrical Communications and Computers (CONIELECOMP), pp. 164-170, 2011.
[8]	ROS, URL: http://www.ros.org
[9]	A. Y. Ng, S. Gould, M. Quigley, A. Saxena, and E. Berger, “STAIR: Hardware and Software Architecture.” AAAI 2007 Robotics Workshop, pp. 31-37, 2007.
[10]	A. Y. Ng, S. Gould, M. Quigley, A. Saxena, and E. Berger, “STAIR: The STanford Artificial Intelligence Robot Project.” Snowbird, 2008.
[11]	K. Wyrobek, E. Berger, H. Van der Loos, and J. Salisbury, “Towards a Personal Robotics Development Platform: Rationale and Design of an Intrinsically Safe Personal Robot,” 2008 IEEE International Conference on Robotics and Automation (ICRA), pp. 2165-2170, 2008.
[12]	黃文鴻,於ROS之地圖建置與探索系統設計,淡江大學電機工程研究所碩士論文(指導教授:李世安),2016。
[13]	PR2, URL: https://www.willowgarage.com/pages/pr2/overview
[14]	J. Maitin-Shepard, M. Cusumano-Towner, J. Lei, and P. Abbeel, “Cloth Grasp Point Detection based on Multiple-View Geometric Cues with Application to Robotic Towel Folding,” 2010 IEEE International Conference on Robotics and Automation (ICRA), pp. 2308-2315, 2010.
[15]	Nao, URL: http://www.nao.com.tw
[16]	Atlas, URL: http://www.bostondynamics.com
[17]	youBot, URL: http://www.youbot-store.com
[18]	Gazebo, URL: http://gazebosim.org
[19]	N. Koenig and A. Howard, “Design and Use Paradigms for Gazebo, An Open-Source Multi-Robot Simulator,” 2004 IEEE International Conference on Robotics and Automation (ICRA), vol.3, pp. 2149-2154, 2004.
[20]	Imitaion Learning, URL: https://zhuanlan.zhihu.com/p/25688750
[21]	R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. UK: MIT Press, 1998.
[22]	L. Busoniu, R. Babuska, B. D. Schutter, and D. Ernst, Reinforcement Learning and Dynamic Programming Using Function Approximators. USA: CRC Press, 2010.
[23]	D. Lee, H. Seo, and M. Jung, “Neural Basis of Reinforcement Learning and Decision Making,” Annual Review of Neuroscience, vol. 35, no. 1, pp. 287-308, 2012.
[24]	D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser,I. Antonoglou, V. Panneershelvam, M. Lanctot, et al., “Mastering the Game of Go with Deep Neural Networks and Tree Search,” Nature, vol. 529, no. 7587, pp. 484-489, 2016.
[25]	R. S. Sutton, D. A. McAllester, S. P. Singh, and Y. Mansour, “Policy Gradient Methods for Reinforcement Learning with Function Approximation,” Advances in Neural Information Processing Systems, vol. 12, pp. 1057-1063, 2000.
[26]	J. Millan, D. Posenato, and E. Dedieu, Machine Learning, vol. 49, no. 23, pp. 247-265, 2002.
[27]	J. A. Martin and J. D. Lope, “Ex〈α〉: An Effective Algorithm for Continuous Actions Reinforcement Learning Problems,” 2009 35th Annual Conference of IEEE Industrial Electronics, pp. 2063-2068, 2009.
[28]	S. Bhatnagar, M. Ghavamzadeh, M. Lee, and R. S. Sutton, “Incremental Natural Actor-Critic Algorithms,” Advances in neural information processing systems, pp. 105-112, 2008.
[29]	T. Haarnoja, A. Zhou, K. Hartikainen, G. Tucker, S. Ha, J. Tan, V. Kumar, H. Zhu,A. Gupta, P. Abbeel, et al., “Soft Actor-Critic Algorithms and Applications,” arXiv.org, 2018.
[30]	T. Haarnoja, A. Zhou, P. Abbeel, and S. Levine, “Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor,” arXiv.org, 2019.
[31]	Z. Wang, V. Bapst, N. Heess, V. Mnih, R. Munos, K. Kavukcuoglu, and N. de Freitas, “Sample Efficient Actor-Critic with Experience Replay,” arXiv.org, 2016. 
[32]	B. D. Ziebart, A. Maas, J. A. Bagnell, and A. K. Dey, “Maximum Entropy Inverse Reinforcement Learning,” in Proc. AAAI Conference on Artificial Intelligence. (AAAI 2008), 2008, pp. 1433-1438.
[33]	S. Fujimoto, H. V. Hoof, and D. Meger, “Addressing Function Approximation Error in Actor-Critic Methods,” arXiv: 1802.09477, 2018.
[34]	W. Yao, W. Dai, J. Xiao, H. Lu, and Z. Zheng, “A Simulation System Based on ROS and Gazebo for RoboCup Middle Size League,” 2015 IEEE International Conference on Robotics and Biomimetics (ROBIO), Zhuhai, 2015, pp. 54-59.
[35]	J. Xiao, D. Xiong, W. Yao, Q. Yu, H. Lu, and Z. Zheng, “Building Software System and Simulation Environment for RoboCup MSL Soccer Robots Based on ROS and Gazebo,” Studies in Computational Intelligence, pp. 597-631, 2017.
[36]	黃聖博,基於ROS之足球機器人的模糊行為決策設計,淡江大學電機工程研究所碩士論文(指導教授:李世安),2016。
論文全文使用權限
校內
紙本論文於授權書繳交後5年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後5年公開
校外
同意授權
校外電子論文於授權書繳交後5年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信