§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1506202417320500
論文名稱(中文) 以TD3演算法決定PID參數進行無人機控制
論文名稱(英文) Using the TD3 algorithm to determine PID parameters for UAV control
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 航空太空工程學系碩士班
系所名稱(英文) Department of Aerospace Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 112
學期 2
出版年 113
研究生(中文) 卓奕賜
研究生(英文) Yi-Ci Zhuo
學號 611430215
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2024-06-18
論文頁數 56頁
口試委員 指導教授 - 蕭富元(fyhsiao@mail.tku.edu.tw)
口試委員 - 王怡仁
口試委員 - 呂文祺
關鍵字(中) 無人飛行載具
強化學習
TD3 演算法
PID 控制
姿態控制
關鍵字(英) Unmanned Aerial Vehicle
Reinforcement Learning
TD3 Algorithm
Attitude Control
MATLAB & Simulink
第三語言關鍵字
學科別分類
中文摘要
    本論文探討了如何結合強化學習(Reinforcement Learning)與 PID
控制器,應用強化學習調整 PID 參數來進行無人機控制器設計。研究
動機在於克服無人機在複雜環境中的導航與控制挑戰,傳統 PID 控制
方法雖然有效,但參數調整困難且依賴經驗。強化學習技術能透過與環
境互動學習最佳策略,優化 PID 參數。
    研究方法包括:首先建構無人機的動態模型,計算氣動力導數及狀
態矩陣,分析無人機穩定性,並作為 Simulink 模擬驗證使用,再來利
用 MATLAB 和 Simulink 建構強化學習環境(Environment),設定觀測
值(Observation)、獎勵函數(Reward function),並通過 UDP(User Datagram
Protocol)通訊協議連接到 X-plane11 模擬軟體。最終,創建智能體作為
雙迴圈 PI 控制器,引入雙重延遲深度確定性策略梯度演算法(Twin
Delayed Deep Deterministic Policy Gradient Algorithm, TD3 Algorithm),通
過反覆試驗和學習,得到一組最佳 PID 參數以控制無人機姿態。
    根據 SIL 及 Simulink 模擬驗證結果顯示,結合 TD3 演算法的雙
迴圈 PI 控制器能有效達成控制無人機姿態的目標,且具有一定的性
能,減少對精確模型的依賴,此方法在無人機控制領域具有潛力,未來
工作可進一步優化演算法及應用於更多實際場景。
英文摘要
 This paper explores combining Reinforcement Learning (RL) with PID controllers to
adjust PID parameters for UAV controller design. The motivation is to overcome UAV
navigation and control challenges in complex environments. Traditional PID control
methods, while effective, are difficult to tune and rely heavily on experience. RL
techniques can optimize PID parameters by learning optimal strategies through interaction
with the environment.
 The research methods include constructing a UAV dynamic model, calculating
aerodynamic derivatives and state matrices, and using these for Simulink simulation
verification. MATLAB and Simulink are then used to build the RL environment, set
observations and reward functions, and connect to X-plane11 simulation software via
UDP. Finally, a dual-loop PI controller agent is created, the TD3 Algorithm is introduced,
and optimal PID parameters for UAV attitude control are obtained through repeated trials
and learning.
 According to the SIL and Simulink simulations, the dual-loop PI controller
combined with the TD3 algorithm effectively achieves UAV attitude control and performs
well, reducing reliance on precise models. This method shows potential in UAV control,
and future work can further optimize the algorithm and apply it to more practical
scenarios.
第三語言摘要
論文目次
目錄
1 緒論 1
1.1 研究動機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 文獻回顧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 研究方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 章節安排 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 無人機建模 4
2.1 外型、重心與轉動慣量參數 . . . . . . . . . . . . . . . . . . . . . . 4
2.2 X-plane11 建模 . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 狀態矩陣計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 穩定性分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 強化學習 10
3.1 介紹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 TD3 演算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3.1 TD3 的主要技術 . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3.2 TD3 演算法流程 . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.4 獎勵函數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 環境建構 17
4.1 控制器設計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 資料傳輸 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.2.1 X-plane11 . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.2.2 XPC 工具箱 . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5 控制器訓練 24
5.1 訓練架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.2 訓練結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
6 控制系統驗證 28
6.1 simulink 模擬 . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.2 軟體在環 SIL . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7 結論與未來工作 41
7.1 結論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7.2 未來工作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

圖目錄
2.1 Ranger EX 757-3 全機圖 . . . . . . . . . . . . . . . . . . . . . . 5
2.2 縱向俯仰系統響應 . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 橫向滾轉系統響應 . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.1 強化學習架構圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.1 控制器架構圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2 俯仰控制器方塊圖 . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.3 滾轉控制器方塊圖 . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.4 導引律控制器方塊圖 . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.5 觀測值方塊圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.6 獎勵函數方塊圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.7 X-Plane 11 標示 . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.8 X-Plane 11 傳輸資料設定 . . . . . . . . . . . . . . . . . . . . . . 21
4.9 UDP 傳輸模塊 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.10 啟用插件列表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.11 XPC MATLAB code . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.1 演員網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2 評論家網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.3 俯仰控制獎勵值 . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.4 滾轉控制獎勵值 . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.1 1 度步階訊號俯仰角響應 θ (degree) . . . . . . . . . . . . . . . . . . 29
6.2 1 度步階訊號俯仰角速度響應 q (rad/s) . . . . . . . . . . . . . . . . . 30
6.3 5 度步階訊號俯仰角響應 θ (degree) . . . . . . . . . . . . . . . . . . 31
6.4 5 度步階訊號俯仰角速度響應 q (rad/s) . . . . . . . . . . . . . . . . . 32
6.5 1 度步階訊號滾轉角響應 ϕ (degree) . . . . . . . . . . . . . . . . . . 33
6.6 1 度步階訊號滾轉角速度響應 p (degree/s) . . . . . . . . . . . . . . . 34
6.7 5 度步階訊號滾轉角響應 ϕ (degree) . . . . . . . . . . . . . . . . . . 35
6.8 5 度步階訊號滾轉角速度響應 p (degree/s) . . . . . . . . . . . . . . . 36
6.9 SIL 架構圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.10 SIL 1 度步階訊號俯仰角響應 θ (degree) . . . . . . . . . . . . . . . . 37
6.11 SIL 5 度步階訊號俯仰角響應 θ (degree) . . . . . . . . . . . . . . . . 38
6.12 SIL 1 度步階訊號滾轉角響應 ϕ (degree) . . . . . . . . . . . . . . . . 39
6.13 SIL 5 度步階訊號滾轉角響應 ϕ (degree) . . . . . . . . . . . . . . . . 39
6.14 系統受擾動之響應 . . . . . . . . . . . . . . . . . . . . . . . . . . 40

表目錄
2.1 外型、重心與轉動慣量參數 . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 縱向特徵根 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 橫向特徵根 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 系統響應指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
5.1 超參數設定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
6.1 俯仰 PI 增益 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.2 滾轉 PI 增益 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.3 simulink 1 度步階訊號俯仰響應數據 . . . . . . . . . . . . . . . . . . . 29
6.4 simulink 5 度步階訊號俯仰響應數據 . . . . . . . . . . . . . . . . . . . 31
6.5 simulink 1 度步階訊號滾轉響應數據 . . . . . . . . . . . . . . . . . . . 33
6.6 simulink 5 度步階訊號滾轉響應數據 . . . . . . . . . . . . . . . . . . . 35
6.7 SIL 1 度步階訊號俯仰響應數據 . . . . . . . . . . . . . . . . . . . . . 38
6.8 SIL 5 度步階訊號俯仰響應數據 . . . . . . . . . . . . . . . . . . . . . 38
6.9 SIL 1 度步階訊號滾轉響應數據 . . . . . . . . . . . . . . . . . . . . . 39
6.10 SIL 5 度步階訊號滾轉響應數據 . . . . . . . . . . . . . . . . . . . . . 40
參考文獻
[1] R. C. Nelson et al., Flight stability and automatic control, vol. 2. WCB/McGraw
Hill NewYork,1998.
[2] Said S. Hamada,“Development of a Small Unmanned Aerial Vehicle Longitudinal Development of a Small Unmanned Aerial Vehicle Longitudinal Model for
Future Flutter Testing Model for Future Flutter Testing,"EmbryRiddleAeronauti
calUniversity, 2018.
[3] Galbraith, Bill, Datcom + P roUser’sM anual. Holy Cows, Inc., Lake Drawdy
Drive, 3 ed., 2014.
[4] S.Bagheri,“Modeling, Simulation and Control System Design for Civil Unmanned
Aerial Vehicle (UAV),"2014.
[5] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Second Edition MIT Press, Cambridge, MA, 2018.
[6] W.Koch, R. Mancuso, R. West, and A. Bestavros, “Reinforcement learning for
UAV attitude control,"CoRR, vol. abs/1804.04154, 2018.
[7] 張嘉,“以 Matlab/Simulink 搭配 Pixhawk 平台實現 PID 控制器控制無人飛行
載具, "淡江大學航空太空工程學系碩士班, 2021.
[8] Ohanes Dadian, Subodh Bhandari, and Amar Raheja, “A Recurrent Neural Network for Nonlinear Control of a Fixed-Wing UAV,"2016.
[9] MathWorks,“Tune PI Controller Using Reinforcement Learning. " (2020),
https://ww2.mathworks.cn/help/reinforcement-learning/ug/
tune-pi-controller-using-td3.html
[10] Rodion Herrera, “X-plane 11 ROD-1 model"(2017),
https://forums.xplane.org/index.php?/forums/topic/
123369-volantex-ranger-ex-rc/.
[11] Ohanes Dadian, Subodh Bhandari, and Amar Raheja, “A Recurrent Neural Network for Nonlinear Control of a Fixed-Wing UAV,"2016.
[12] Fujimoto et al,“Addressing Function Approximation Error in Actor-Critic Methods,"2018
[13] Oguzhan Dogru a, Kirubakaran Velswamy a, Fadi Ibrahim a, Yuqi Wu b, Arun
Senthil Sundaramoorthy a, Biao Huang a, Shu Xu c, Mark Nixon c, Noel Bell c,
“Reinforcement learning approach to autonomous PID tuning"2022
[14] 卓奕賜,“SIL 擾動測試影片"(2024),
https://www.youtube.com/watch?v=CmnwZErXRos
[15] 吳柏勳,“應用 PPO 演算法於定翼無人機姿態控制, "淡江大學航空太空工
程學系碩士班, 2023.
[16] 郭軒煒,“利用 Matlab/Simulink 結合 Pixhawk 實現無人機自主飛行, "淡江
大學航空太空工程學系碩士班, 2019.
論文全文使用權限
國家圖書館
同意無償授權國家圖書館,書目與全文電子檔於2028-08-07, 於網際網路公開,延後電子全文
校內
校內紙本論文立即公開
同意電子論文全文授權於全球公開
校內電子論文立即公開
校外
同意授權予資料庫廠商
校外電子論文延後至2027-08-07公開,延後電子全文

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信