| 系統識別號 | U0002-2302202601594100 |
|---|---|
| 論文名稱(中文) | 基於AlphaZero General 架構之中國跳棋對局程式探討 |
| 論文名稱(英文) | A Study of Chinese Checkers Program Based on AlphaZero General Framework |
| 第三語言論文名稱 | |
| 校院名稱 | 淡江大學 |
| 系所名稱(中文) | 資訊管理學系碩士班 |
| 系所名稱(英文) | Department of Information Management |
| 外國學位學校名稱 | |
| 外國學位學院名稱 | |
| 外國學位研究所名稱 | |
| 學年度 | 114 |
| 學期 | 1 |
| 出版年 | 115 |
| 研究生(中文) | 陳允斌 |
| 研究生(英文) | YUN-PIN CHEN |
| 學號 | 611630533 |
| 學位類別 | 碩士 |
| 語言別 | 繁體中文 |
| 第二語言別 | |
| 口試日期 | 2026-01-16 |
| 論文頁數 | 48頁 |
| 口試委員 |
指導教授
-
周清江(cjou@mail.tku.edu.tw)
口試委員 - 魏世杰(sekewei@mail.tku.edu.tw) 口試委員 - 陸承志(cjluh997@gmail.com) 口試委員 - 周清江 |
| 關鍵字(中) |
中國跳棋 電腦競技 AlphaZero General 人工智慧 |
| 關鍵字(英) |
Chinese checkers computer esports AlphaZero General artificial intelligence |
| 第三語言關鍵字 | |
| 學科別分類 | |
| 中文摘要 |
中國跳棋雖然是許多人的童年回憶,但與圍棋及西洋棋相比卻較少出現在國際賽事上。或許是因為大部分人對中國跳棋的印象為三位玩家競賽的緣故,所以會認為中國跳棋的競技性偏低,也因此中國跳棋在電腦競技上的研究,相比於其他棋類遊戲也比較稀少。 本研究以AlphaZero General 為基底,設計並實作運用人工智慧的中國跳棋系統。透過修改神經網路的全連接層、輸入層與輸出層,使其能符合跳棋的遊戲規則。並加入了在前期生成開局訓練資料的盤面時,透過旋轉盤面能一併生成結尾訓練資料的機制,以增加程式對終局盤面的收斂效果。最終實驗結果顯示,加入生成結尾訓練資料機制的模型勝率,略高於未加入此機制的模型。 |
| 英文摘要 |
Despite its popularity as a childhood pastime, Chinese Checkers features less prominently in international competitions than Go or Chess. This is likely due to the common perception of it as a casual multi-player game, resulting in assumed lower competitive depth. Consequently, literature regarding Chinese Checkers in the field of Game AI remains scarce. This study presents a Chinese Checkers AI system implemented using the AlphaZero General framework. We adapted the neural network architecture—specifically the input, output, and fully connected layers—to align with the rules of Chinese Checkers. Furthermore, we introduced a mechanism to generate endgame training data during the initial data generation phase. This approach significantly improved the model's convergence speed towards endgame proficiency. Experimental results demonstrate that the system incorporating endgame data generation achieves a higher win rate compared to the baseline model. |
| 第三語言摘要 | |
| 論文目次 |
目錄 第一章、緒論 1 1.1、研究背景與動機 1 1.2、研究目的 4 第二章、文獻探討 5 2.1、類神經網路及蒙地卡羅樹搜尋相關論文 5 2.2、其他棋類論文 9 2.3、AlphaZero General系統的架構 11 第三章、研究方法 14 3.1、函式庫介紹 14 3.2、本系統的架構與相關說明 16 3.3、蒙地卡羅搜尋樹的實作 19 3.4、類神經網路的修改 20 3.5、平行運算的加速 22 3.6、循環走步的處理方式 24 3.7、預訓練的導入 24 第四章、實驗結果 26 4.1、實驗環境與參數 26 4.2、預訓練結果 26 4.3、有無終局盤面的生成對結果的影響 27 4.4、有無預訓練對結果的影響 32 4.5、比較cpuct常數對模型的影響 35 4.6、比較預生成終局步數多寡對模型的影響 39 4.7、比較平行運算後學習時間的差別 42 4.8、實驗結果討論 43 第五章、結論 46 參考文獻 47 圖目錄 圖 1中國跳棋的盤面 1 圖 2棋盤初始為10顆子的範例 2 圖 3棋盤初始為15顆子的範例 2 圖 4星形盤面簡化為正方形盤面的範例 3 圖 5走與跳的範例 3 圖 6 ResNet模型[9] 6 圖 7蒙地卡羅樹搜尋選擇階段範例 7 圖 8 AlphaZero General系統架構圖 12 圖 9 MCTS的流程 12 圖 10 取得訓練資料的流程 13 圖 11二維陣列取代星形棋盤的範例 14 圖 12走的範例 15 圖 13跳的範例 15 圖 14終局盤面的預先生成方式 16 圖 15左為上一步移動後的棋盤,右為輸入MCTS的棋盤 16 圖 16本系統流程圖 17 圖 17審局函數 18 圖 18 a(start,end)的範例 19 圖 19本研究的神經網路架構 21 圖 20神經網路的輸入層及選定開始位置後的範例 22 圖 21平行運算的架構 23 圖 22無終局盤面生成的盤面紀錄範例 28 圖 23有終局盤面生成的盤面紀錄 29 圖 24無終局盤面的自我對弈統計 30 圖 25有終局盤面的自我對弈統計 30 圖 26無終局盤面的模型更新狀況 31 圖 27有終局盤面的模型更新狀況 31 圖 28有無終局盤面模型的對弈結果 32 圖 29有預訓練模型的自我對弈統計 33 圖 30有預訓練的模型更新狀況 34 圖 31有無預訓練模型的對弈結果 34 圖 32 cpuct為0.5的模型自我對弈統計 36 圖 33 cpuct為1.5的模型自我對弈統計 36 圖 34 cpuct為0.5的模型更新狀況 37 圖 35 cpuct為1.5的模型更新狀況 37 圖 36 cpuct為0.5的模型及cpuct為1的模型對弈結果 38 圖 37 cpuct為1.5的模型及cpuct為1的模型對弈結果 38 圖 38步數為6的模型自我對弈統計 40 圖 39步數為18的模型自我對弈統計 40 圖 40步數為6的模型更新狀況 41 圖 41步數為18的模型更新狀況 41 圖 42步數為6的模型及步數為12的模型對弈結果 41 圖 43步數18的模型及步數為12的模型對弈結果 42 表目錄 表 1有無終局盤面第50迭代的對弈結果 32 表 2有無預訓練第50迭代的對弈結果 35 表 3 cpuct為0.5的模型及cpuct為1的模型第50迭代的對弈結果 38 表 4 cpuct為1.5的模型及cpuct為1的模型第50迭代的對弈結果 39 表 5步數為6的模型及步數為12的模型第50迭代對弈結果 42 表 6步數為18的模型及步數為12的模型第50迭代對弈結果 42 表 7先後手勝利局數統計 45 |
| 參考文獻 |
參考文獻 [1] 江曛宇,利用啟發式法則與數種訓練策略來評估中國跳棋程式,國立台灣師範大學碩士論文,2023。 [2] 陳俊豪,中國跳棋對局程式研發與深度學習之探討,國立台灣師範大學碩士論文,2019。 [3] 陳律濃,中國跳棋對弈平台與AI的實作,國立台灣師範大學碩士論文,2019。 [4] 楊子頤,應用AlphaZero於六子棋,國立交通大學碩士論文,2020。 [5] David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel & Demis Hassabis, “Mastering the game of Go with deep neural networks and tree search,” Nature, 529(7587), pp. 484-489, 2016. [6] David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel & Demis Hassabis, “Mastering the game of Go without human knowledge,” Nature, 550(7676), pp. 354-359, 2017. [7] Yann LeCun, Yoshua Bengio & Geoffrey Hinton, “Deep learning,” Nature, 521(7553), pp.436-444, 2015. [8] S. Hochreiter, Y. Bengio, P. Frasconi & J. Schmidhuber, “Gradient flow in recurrent nets: the difficulty of learning long-term dependencies,” In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, pp. 237-243, 2001. [9] Kaiming He, Xiangyu Zhang, Shaoqing Ren & Jian Sun,“Deep residual learning for image recognition,”International conference on computer vision and pattern recognition, pp. 770-778, 2016. [10] Yizao Wang & Sylvain Gelly, “Modifications of UCT and sequence-like simulations for Monte-Carlo Go,” In 2007 IEEE Symposium on Computational Intelligence and Games, pp. 175-182, 2007. [11] Cameron B. Browne, Edward Powley, Daniel Whitehouse, Simon M. Lucas, Peter I. Cowling, Philipp Rohlfshagen, Stephen Tavener, Diego Perez, Spyridon Samothrakis & Simon Colton, "A Survey of Monte Carlo Tree Search Methods," in IEEE Transactions on Computational Intelligence and AI in Games, 4(1), pp. 1-43, 2012. [12] Y. Fu, S. Yang, S. He, J. Yang, X. Liu, Y. Chen & D. Ji, “To create intelligent adaptive neuro-controller of game opponent from UCT-created data,” in Proceedings of Fuzzy System Knowledge Discovery, Tianjin, China, pp.445–449, 2009. |
| 論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信