§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2302202601594100
論文名稱(中文) 基於AlphaZero General 架構之中國跳棋對局程式探討
論文名稱(英文) A Study of Chinese Checkers Program Based on AlphaZero General Framework
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 114
學期 1
出版年 115
研究生(中文) 陳允斌
研究生(英文) YUN-PIN CHEN
學號 611630533
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2026-01-16
論文頁數 48頁
口試委員 指導教授 - 周清江(cjou@mail.tku.edu.tw)
口試委員 - 魏世杰(sekewei@mail.tku.edu.tw)
口試委員 - 陸承志(cjluh997@gmail.com)
口試委員 - 周清江
關鍵字(中) 中國跳棋
電腦競技
AlphaZero General
人工智慧
關鍵字(英) Chinese checkers
computer esports
AlphaZero General
artificial intelligence
第三語言關鍵字
學科別分類
中文摘要
中國跳棋雖然是許多人的童年回憶,但與圍棋及西洋棋相比卻較少出現在國際賽事上。或許是因為大部分人對中國跳棋的印象為三位玩家競賽的緣故,所以會認為中國跳棋的競技性偏低,也因此中國跳棋在電腦競技上的研究,相比於其他棋類遊戲也比較稀少。
本研究以AlphaZero General 為基底,設計並實作運用人工智慧的中國跳棋系統。透過修改神經網路的全連接層、輸入層與輸出層,使其能符合跳棋的遊戲規則。並加入了在前期生成開局訓練資料的盤面時,透過旋轉盤面能一併生成結尾訓練資料的機制,以增加程式對終局盤面的收斂效果。最終實驗結果顯示,加入生成結尾訓練資料機制的模型勝率,略高於未加入此機制的模型。
英文摘要
Despite its popularity as a childhood pastime, Chinese Checkers features less prominently in international competitions than Go or Chess. This is likely due to the common perception of it as a casual multi-player game, resulting in assumed lower competitive depth. Consequently, literature regarding Chinese Checkers in the field of Game AI remains scarce.
This study presents a Chinese Checkers AI system implemented using the AlphaZero General framework. We adapted the neural network architecture—specifically the input, output, and fully connected layers—to align with the rules of Chinese Checkers. Furthermore, we introduced a mechanism to generate endgame training data during the initial data generation phase. This approach significantly improved the model's convergence speed towards endgame proficiency. Experimental results demonstrate that the system incorporating endgame data generation achieves a higher win rate compared to the baseline model.
第三語言摘要
論文目次
目錄

第一章、緒論	1
1.1、研究背景與動機	1
1.2、研究目的	4
第二章、文獻探討	5
2.1、類神經網路及蒙地卡羅樹搜尋相關論文	5
2.2、其他棋類論文	9
2.3、AlphaZero General系統的架構	11
第三章、研究方法	14
3.1、函式庫介紹	14
3.2、本系統的架構與相關說明	16
3.3、蒙地卡羅搜尋樹的實作	19
3.4、類神經網路的修改	20
3.5、平行運算的加速	22
3.6、循環走步的處理方式	24
3.7、預訓練的導入	24
第四章、實驗結果	26
4.1、實驗環境與參數	26
4.2、預訓練結果	26
4.3、有無終局盤面的生成對結果的影響	27
4.4、有無預訓練對結果的影響	32
4.5、比較cpuct常數對模型的影響	35
4.6、比較預生成終局步數多寡對模型的影響	39
4.7、比較平行運算後學習時間的差別	42
4.8、實驗結果討論	43
第五章、結論	46
參考文獻	47

 圖目錄
圖 1中國跳棋的盤面	1
圖 2棋盤初始為10顆子的範例	2
圖 3棋盤初始為15顆子的範例	2
圖 4星形盤面簡化為正方形盤面的範例	3
圖 5走與跳的範例	3
圖 6 ResNet模型[9]	6
圖 7蒙地卡羅樹搜尋選擇階段範例	7
圖 8 AlphaZero General系統架構圖	12
圖 9 MCTS的流程	12
圖 10 取得訓練資料的流程	13
圖 11二維陣列取代星形棋盤的範例	14
圖 12走的範例	15
圖 13跳的範例	15
圖 14終局盤面的預先生成方式	16
圖 15左為上一步移動後的棋盤,右為輸入MCTS的棋盤	16
圖 16本系統流程圖	17
圖 17審局函數	18
圖 18 a(start,end)的範例	19
圖 19本研究的神經網路架構	21
圖 20神經網路的輸入層及選定開始位置後的範例	22
圖 21平行運算的架構	23
圖 22無終局盤面生成的盤面紀錄範例	28
圖 23有終局盤面生成的盤面紀錄	29
圖 24無終局盤面的自我對弈統計	30
圖 25有終局盤面的自我對弈統計	30
圖 26無終局盤面的模型更新狀況	31
圖 27有終局盤面的模型更新狀況	31
圖 28有無終局盤面模型的對弈結果	32
圖 29有預訓練模型的自我對弈統計	33
圖 30有預訓練的模型更新狀況	34
圖 31有無預訓練模型的對弈結果	34
圖 32 cpuct為0.5的模型自我對弈統計	36
圖 33 cpuct為1.5的模型自我對弈統計	36
圖 34 cpuct為0.5的模型更新狀況	37
圖 35 cpuct為1.5的模型更新狀況	37
圖 36 cpuct為0.5的模型及cpuct為1的模型對弈結果	38
圖 37 cpuct為1.5的模型及cpuct為1的模型對弈結果	38
圖 38步數為6的模型自我對弈統計	40
圖 39步數為18的模型自我對弈統計	40
圖 40步數為6的模型更新狀況	41
圖 41步數為18的模型更新狀況	41
圖 42步數為6的模型及步數為12的模型對弈結果	41
圖 43步數18的模型及步數為12的模型對弈結果	42

 表目錄
表 1有無終局盤面第50迭代的對弈結果	32
表 2有無預訓練第50迭代的對弈結果	35
表 3 cpuct為0.5的模型及cpuct為1的模型第50迭代的對弈結果	38
表 4 cpuct為1.5的模型及cpuct為1的模型第50迭代的對弈結果	39
表 5步數為6的模型及步數為12的模型第50迭代對弈結果	42
表 6步數為18的模型及步數為12的模型第50迭代對弈結果	42
表 7先後手勝利局數統計	45

參考文獻
參考文獻
[1]	江曛宇,利用啟發式法則與數種訓練策略來評估中國跳棋程式,國立台灣師範大學碩士論文,2023。
[2]	陳俊豪,中國跳棋對局程式研發與深度學習之探討,國立台灣師範大學碩士論文,2019。
[3]	陳律濃,中國跳棋對弈平台與AI的實作,國立台灣師範大學碩士論文,2019。
[4]	楊子頤,應用AlphaZero於六子棋,國立交通大學碩士論文,2020。
[5]	David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel & Demis Hassabis, “Mastering the game of Go with deep neural networks and tree search,” Nature, 529(7587), pp. 484-489, 2016.
[6]	David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel & Demis Hassabis, “Mastering the game of Go without human knowledge,” Nature, 550(7676), pp. 354-359, 2017.
[7]	Yann LeCun, Yoshua Bengio & Geoffrey Hinton, “Deep learning,” Nature, 521(7553), pp.436-444, 2015.
[8]	S. Hochreiter, Y. Bengio, P. Frasconi & J. Schmidhuber, “Gradient flow in recurrent nets: the difficulty of learning long-term dependencies,” In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, pp. 237-243, 2001.
[9]	Kaiming He, Xiangyu Zhang, Shaoqing Ren & Jian Sun,“Deep residual learning for image recognition,”International conference on computer vision and pattern recognition, pp. 770-778, 2016.
[10]	Yizao Wang & Sylvain Gelly, “Modifications of UCT and sequence-like simulations for Monte-Carlo Go,” In 2007 IEEE Symposium on Computational Intelligence and Games, pp. 175-182, 2007.
[11]	Cameron B. Browne, Edward Powley, Daniel Whitehouse, Simon M. Lucas, Peter I. Cowling, Philipp Rohlfshagen, Stephen Tavener, Diego Perez, Spyridon Samothrakis & Simon Colton, "A Survey of Monte Carlo Tree Search Methods," in IEEE Transactions on Computational Intelligence and AI in Games, 4(1), pp. 1-43, 2012.
[12]	Y. Fu, S. Yang, S. He, J. Yang, X. Liu, Y. Chen & D. Ji, “To create intelligent adaptive neuro-controller of game opponent from UCT-created data,” in Proceedings of Fuzzy System Knowledge Discovery, Tianjin, China, pp.445–449, 2009.
論文全文使用權限
國家圖書館
同意無償授權國家圖書館,書目與全文電子檔於2027-02-23, 於網際網路公開,延後電子全文
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權予資料庫廠商
校外電子論文延後至2027-02-23公開,延後電子全文

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信