§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2201201921495500
DOI 10.6846/TKU.2019.00668
論文名稱(中文) 深度強化學習之雲端平台與機器人系統的設計
論文名稱(英文) Design of Cloud Platform for Deep Reinforcement Learning and Its Robot System
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 電機工程學系博士班
系所名稱(英文) Department of Electrical and Computer Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 107
學期 1
出版年 108
研究生(中文) 陳功瀚
研究生(英文) Kung-Han Chen
學號 801440073
學位類別 博士
語言別 繁體中文
第二語言別
口試日期 2019-01-11
論文頁數 150頁
口試委員 指導教授 - 翁慶昌
委員 - 陳博現
委員 - 王文俊
委員 - 李祖聖
委員 - 蘇順豐
委員 - 王偉彥
委員 - 李祖添
委員 - 翁慶昌
關鍵字(中) 深度強化學習
強化學習
湯姆森取樣
模擬到真實
語義分割
關鍵字(英) Deep Reinforcement Learning (DRL)
Reinforcement Learning (RL)
Thompson Sampling (TS)
Sim-to-Real
Semantic Segmentation
第三語言關鍵字
學科別分類
中文摘要
本論文設計與實現一個可以應用於機器人系統設計之深度強化學習的雲端平台,所實現之雲端平台可以同時使用不同的演算法在相同或不同的應用環境。主要有三個部分:(1)深度強化學習之雲端平台的設計與實現、(2)自動尋找較適合工作者(神經網路模型)的設計與實現、與(3)所實現之雲端平台的機器人系統設計。在深度強化學習之雲端平台的設計與實現上,本論文將代理器分為代理器終端與代理器雲端來讓平台為雲端平台,將通訊流程分為獎勵模式與估測模式來分別訓練與使用深度強化學習模型,以及將一些神經網絡模型模組化來讓平台可以使用各種深度強化學習演算法。在自動尋找較適合工作者(神經網路模型)的設計與實現上,由於所實現之雲端平台可以同時使用不同的演算法,而不同的演算法適合不同的應用環境,因此本論文提出一個基於湯姆森取樣的方法來為這個應用環境自動尋找一個較適合的演算法。在所實現之雲端平台的機器人系統設計上,由於深度強化學習演算法的訓練步數通常需要高達百萬次以上,因此有必要在模擬器上訓練深度強化學習模型。但是,模擬器與真實環境之間存在許多的差異。因此,本論文提出一個硬體獨立的方法來解決從模擬到真實機器人的轉移問題。此外,本論文提出一個使用語義分割的方法來解決從模擬到真實機器人的影像問題。最後,由於狀態與行動可以是離散的或連續的,因此本論文用狀態與行動之四種組合(離散的狀態與離散的行動、離散的狀態與連續的行動、連續的狀態與離散的行動、連續的狀態與連續的行動)來展示所實現平台之通用性。並且用輪型機器人的避障任務以及機械手臂的夾取任務來驗證本論文所提之平台與方法確實可行。
英文摘要
In this dissertation, a cloud platform for deep reinforcement learning is designed and implemented so that it can be applied in the robot systems design. The implemented cloud platform can simultaneously use different algorithms in the same or different application environments. There are three main parts: (1) Design and implementation of the cloud platform for deep reinforcement learning, (2) Design and implementation of automatically finding a suitable worker (neural network model), and (3) Robot system design on the implemented cloud platform.In the design and implementation of the cloud platform for deep reinforcement learning, the agent is divided into an agent end and an agent cloud to let the platform be a cloud platform, a communication process is divided into a reward mode and a estimation mode to respectively train and use the deep reinforcement learning model, and some neural network models are modularized to allow the platform to use a variety of deep reinforcement learning algorithms.In the design and implementation of automatically finding a suitable worker (neural network model), the implemented cloud platform can use different algorithms at the same time and different algorithms are suitable for different application environments, thus a method based on the Thomson sampling is proposed to automatically find a suitable algorithm for this application environment.In the design of the robot system on the implemented cloud platform, since the number of training steps of the deep reinforcement learning algorithm usually needs to be more than one million steps, it is necessary to train the model on the simulator. However, there are many differences between the simulator and the real environment. Therefore, a hardware-independent method is proposed to solve the transfer problem from simulation to the real robot. In addition, a method using a semantic segmentation is proposed to solve the image problem from simulation to the real robot. Finally, since states and actions can be discrete or continuous, four combinations (discrete state and discrete action, discrete state and continuous action, continuous state and discrete action, continuous state and continuous action) are presented to illustrate the versatility of the implemented platform. Moreover, the obstacle avoidance task of the wheeled robot and the gripping task of the robot manipulator are presented to verify that the implemented platform and method are indeed feasible.
第三語言摘要
論文目次
目 錄
目 錄	I
圖目錄	IV
表目錄	X
第一章 緒論	1
1.1研究背景	1
1.1.1人工智慧與機器學習	1
1.1.2強化學習發展歷史	3
1.1.3深度強化學習的崛起	5
1.2研究目的	8
1.3論文架構	10
第二章 強化學習演算法之探討與綜述	11
2.1馬可夫決策過程 (MDP)	12
2.1.1馬可夫性質(Markov Property)	12
2.1.2馬可夫鍵 (Markov Chain)	13
2.1.3馬可夫決策過程(MDP)	14
2.2動態規劃 (Dynamic Programming)	16
2.2.1價值疊代 (Value Iteration)	17
2.2.2策略疊代 (Policy Iteration)	18
2.3 Q學習 (Q-learning)與SARSA	20
2.3.1 Q學習 (Q-learning)	20
2.3.2 SARSA	21
第三章 深度強化學習演算法之探討與綜述	23
3.1深度Q學習 (Deep Q-Network, DQN)	23
3.2非同步優勢行動者評論家 (Asynchronous Advantage Actor-Critic, A3C)	25
第四章 整體架構與模組化設計	28
4.1通訊方法說明	30
4.1.1 TCP/IP的採用	30
4.1.2 WebSocket的採用	32
4.2整體架構說明	34
4.2.1整體架構之設計概念	35
4.2.2整體架構與流程設計	38
4.3設定檔與模組化設計說明	49
4.3.1設定檔之格式說明	50
4.3.2緩衝區模組說明	54
4.3.3 DRL模組說明	58
4.3.4行動雜訊模組說明	78
4.4以DQN為範例說明平台的操作方式	82
第五章 四種輸出入型態的應用範例	86
5.1離散的狀態與離散的行動之應用範例	88
5.2離散的狀態與連續的行動之應用範例	91
5.3連續的狀態與離散的行動之應用範例	94
5.4連續的狀態與連續的行動之應用範例	97
第六章 自動尋找較適合工作者	103
6.1湯姆森取樣(Thompson Sampling)	104
6.1.1湯姆森取樣之介紹與其應用領域	105
6.1.2湯姆森取樣之虛擬碼	106
6.2自動尋找較適合工作者之方法	110
6.2.1自動尋找較適合工作者之架構介紹	110
6.2.2自動尋找較適合工作者之範例	112
6.2.2.1自動尋找較適合工作者之範例一	112
6.2.2.2自動尋找較適合工作者之範例二	115
第七章 本論文平台實現於機器人之方法	118
7.1端到端學習(End-to-End Learning)	118
7.2機械手臂夾取任務之實驗環境	121
7.3機械手臂夾取任務之實驗結果	125
7.4模擬到真實(sim-to-real)	133
第八章 結論與未來展望	143
8.1結論	143
8.2未來展望	146
參考文獻	148

 
圖目錄
圖 1.1、機器學習三大領域示意圖	2
圖 1.2、DQN使用深度網路輸入遊像圖像並輸出遊戲之控制鍵[11]	6
圖 1.3、Google團隊使用多機器人進行機械手臂夾取學習[16] [17]	7
圖 1.4、(a) 深度強化學習應用於機器人導航與(b) AI2-THOR [18][19]	7
圖 1.5、研究目的之探討地圖	8
圖 2.1、強化學習示意圖	11
圖 2.2、馬可夫鍵範例圖	13
圖 2.3、代理器-環境(agent-environment)互動之馬可夫決策過程	15
圖 3.1、DQN整體架構	23
圖 3.2、DQN預測模式時,資料流輸出入關係圖	24
圖 3.3、DQN訓練模式時,資料流輸出入關係圖	25
圖 3.4,A3C演算法示意圖	26
圖 3.5,AC網路架構圖	27
圖 4.1,OSI 模型、TCP/IP協定套組與實作之通訊協定	31
圖 4.2,HTTP與WebSocket通訊方式的比較	33
圖 4.3,強化學習主要資料流示意圖	35
圖 4.4,強化學習主要資料流示意圖 (含時刻)	36
圖 4.5,強化學習與雲端連接示意圖	37
圖 4.6,簡化為獎勵模式(reward mode)與估測模式(estimation mode)	38
圖 4.7,整體架構示意圖	39
圖 4.8,client與server連線流程設計圖	40
圖 4.9,架構綱要流程圖	42
圖 4.10,建立連線	43
圖 4.11,連線空間(connection space)示意圖	44
圖 4.12,平台有效進行運算資源利用示意圖	45
圖 4.13,獎勵模式(reward mode)之資料流與時間關係	46
圖 4.14,獎勵模式(reward mode)之流程圖	47
圖 4.15,估測模式(estimation mode)之資料流與時間關係	48
圖 4.16,估測模式(estimation mode)之流程圖	49
圖 4.17,worker模組化設計圖	50
圖 4.18,YAML之範例格式	52
圖 4.19,XML之範例格式	52
圖 4.20,連線之設定檔範例格式	53
圖 4.21,DRL超參數之設定檔範例格式	53
圖 4.22,緩衝區模組之資料流圖	54
圖 4.23,重放記憶體模組之超參數設定方式	55
圖 4.24,重放記憶體模組之架構圖	56
圖 4.25,簡易緩衝模組之超參數設定方式	56
圖 4.26,簡易緩衝模組之架構圖	57
圖 4.27,DRL模組之資料流圖	58
圖 4.28,NN元件之超參數設定方式	59
圖 4.29,卷積層之設計範例	59
圖 4.30,全連接層之設計範例	60
圖 4.31,NN元件之設計範例	60
圖 4.32,TD-error元件之超參數設定方式	61
圖 4.33,TD-error元件之架構圖	62
圖 4.34,DQN模組	62
圖 4.35,DQN模組之超參數設定方式	63
圖 4.36,DQN模組之預測模式	63
圖 4.37,DQN模組之訓練模式	65
圖 4.38,DDPG模組	65
圖 4.39,DDPG模組之超參數設定方式	66
圖 4.40,DDPG模組之預測模式	67
圖 4.41,DDPG模組之行動輸出區塊	68
圖 4.42,DDPG模組之訓練模式,訓練行動者網路	69
圖 4.43,DDPG模組之訓練模式,訓練評論家網路	70
圖 4.44,A3C之架構圖	71
圖 4.45,A3C模組	72
圖 4.46,A3C行動輸出區塊	74
圖 4.47,策略損失區塊	75
圖 4.48,A3C模組之超參數設定方式	76
圖 4.49,A3C模組之預測模式	76
圖 4.50,A3C模組之訓練模式	78
圖 4.51,行動雜訊模組之資料流圖	78
圖 4.52, ε貪婪模組之超參數設定方式	79
圖 4.53, ε貪婪模組	79
圖 4.54,常態分佈模組之超參數設定方式	80
圖 4.55, 常態分佈模組	81
圖 4.56,DQN設定檔之範例說明	83
圖 4.57,獎勵模式(reward mode)之資料流與時間關係圖	85
圖 5.1,網格世界(grid world)之示意圖	88
圖 5.2,四種演算法在網格世界實驗的600回合中,每一回合獲得獎勵	91
圖 5.3,四足機器人(quadruped robot)之示意圖	92
圖 5.4,四足機器人之狀態輸入為連續的四張灰階影像	92
圖 5.5,DDPG演算法在四足機器人實驗的100回合中之使用步數圖	93
圖 5.6,單擺車(cart pole)之示意圖	94
圖 5.7,各演算法在單擺車實驗的500回合中,每一回合獲得獎勵	96
圖 5.8,爬山台車(mountain car)之示意圖	97
圖 5.9,各演算法在爬山台車的100回合中,每一回合使用步數	100
圖 5.10,各演算法在爬山台車的100回合中,每一回合獲得獎勵	100
圖 5.11,應用於機器人避障之模擬	101
圖 5.12,使用全像鏡來模擬掃描線再輸入深度強化學習模型中	102
圖 5.13,應用於實體機器人之避障	102
圖 6.1,多臂拉霸(Multi-armed Bandit, MAB)問題	104
圖 6.2,B分佈在不同的α、β值的PDF分佈情形	108
圖 6.3,自動尋找較適合工作者之架構圖	111
圖 6.4,當n=1、K1=4與P1=1時,自動尋找較適合工作者之架構圖	112
圖 6.5,當n=1、K1=4與P1=1時,3個時刻的範例說明	113
圖 6.6,當n=2、K2=4與P2=2時,,自動尋找較適合工作者之架構圖	115
圖 6.7,當n=2、K2=4與P2=2時,平行化運行操作槽(play slot)之範例	116
圖 7.1,端到端學習(End-to-End Learning)與一般方法之比較	119
圖 7.2,Google團隊使用了14隻機械手臂來訓練深度網路夾取模型[16]	120
圖 7.3,Google團隊使用的深度網路架構 [16]	120
圖 7.4,模仿學習之學習流程圖[54]	121
圖 7.5,OpenAI Gym所提供的模擬環境	122
圖 7.6,本論文所提之雲端平台與OpenAI Gym之關係	123
圖 7.7,機械手臂夾取任務之實驗環境1	124
圖 7.8,機械手臂夾取任務之實驗環境2	124
圖 7.9,實驗1使用的深度網路模型	126
圖 7.10,實驗1使用不同次疊代(iter.)所獲得的獎勵圖	129
圖 7.11,實驗2使用的深度網路模型	131
圖 7.12,實驗2使用自動尋找較適合工作者之10次疊代實驗結果圖	132
圖 7.13,真實環境紅色方塊與模擬環境紅色方塊之比較	133
圖 7.14,透過語義分割(semantic segmentation)減少影像偏差	134
圖 7.15,採用Segnet [58]為語義分割的神經網路	134
圖 7.16,透過旋轉(rotate)、平移(shift)與縮放(scale) 做影像資料擴增之示意圖	135
圖 7.17,透過旋轉(rotate)、平移(shift)與縮放(scale) 做標記資料擴增之示意圖	135
圖 7.18,Segnet深度神經網路模型之訓練方法	136
圖 7.19,步驟一,先訓練Segnet深度神經網路	136
圖 7.20,步驟二,凍結Segnet,訓練深度強化學習的深度神經網路	136
圖 7.21,步驟一,先訓練Segnet深度神經網路	137
圖 7.22,步驟二,凍結Segnet,訓練深度強化學習的深度神經網路	137
圖 7.23,實驗平台示意圖,(a)整體圖、(b)手臂卷曲圖、與(c)單臂規格	138
圖 7.24,實驗結果分鏡示意圖 (擷取自實驗影片)	139
圖 7.25,完成模擬器(simulator)訓練並執行於真實環境(real environment)	139
圖 7.26,硬體獨立(hardware independent)概念與對應方法	140
圖 7.27,在架構中加入相等遮罩(Equal Mask)	141
圖 7.28,物品目標識別編號(target ID)設定	142
圖 7.29,目標物為熱水瓶清潔劑盒子(target ID=1)之示意圖	142
圖 7.30,多樣物品之實驗結果分鏡示意圖 (擷取自實驗影片)	142
 
表目錄
表 2.1,價值疊代之虛擬碼,用來估計最佳策略(π*)	17
表 2.2,策略疊代之虛擬碼,用來估計最佳策略(π*)	19
表 2.3,Q-learning虛擬碼	21
表 2.4,SARSA虛擬碼	22
表 4.1,三種Server的應用範例方式說明	45
表 4.2,計算R區塊之虛擬碼	73
表 4.3,取樣從常態分佈區塊	81
表 5.1、四項狀態與行動對應關係及其四項應用範例	87
表 5.2、可使用於四項應用範例之演算法	87
表 5.3、網格世界之輸入、輸出、終止條件、達成任務條件以及獎勵	89
表 5.4、四個演算法模型在網格世界之實驗數據	90
表 5.5、四足機器人之輸入、輸出、終止條件、達成任務條件以及獎勵	92
表 5.6、四足機器人實驗數據	93
表 5.7、單擺車之輸入、輸出、終止條件、達成任務條件以及獎勵	94
表 5.8、單擺車實驗數據	95
表 5.9、爬山台車之輸入、輸出、終止條件、達成任務條件以及獎勵	98
表 5.10、爬山台車實驗數據	99
表 5.11、機器人避障之輸入、輸出、終止條件、達成任務條件以及獎勵	101
表 5.12、機器人避障實驗數據	102
表 6.1,湯姆森取樣(Thompson Sampling)之虛擬碼	109
表 6.2,當n=1、K1=4與P1=1時,3個時刻的範例詳細說明	114
表 6.3,當n=2、K2=4與P2=2時,3個時刻的範例詳細說明	117
表 7.1,機械手臂物件夾取之輸入、輸出與終止條件	125
表 7.2,實驗1使用深度網路之各層描述	127
表 7.3,實驗1使用二種不同的獎勵方式	128
表 7.4,實驗1使用不同次疊代(iter.)所獲得的獎勵,Method A為DQN、Method B為Prioritized Replay + C51、與Method C為Our method	128
表 7.5,針對實驗1中的六個實驗方法進行評估(evaluation)	130
表 7.6,實驗2使用自動尋找較適合工作者之10次疊代實驗結果	132
表 7.7,與論文[57]實驗結果比較	141
參考文獻
[1]	R.S. Sutton and A.G. Barto, “Reinforcement Learning: An Introduction (second edition),” MIT Press, 2017.
[2]	M. Minsky, “Steps toward artificial intelligence,” Proc. IRE, vol. 49, no. 1, pp. 8-30, 1961.
[3]	R. S. Sutton, “Learning to predict by the methods of temporal differences,” Machine Learning, pp. 9-44, 1988.
[4]	P. Dayan, “The Convergence of TD(λ) for General λ,” Machine Learning, vol. 8, iss. 3-4, pp. 341-362, 1992.
[5]	C.J.C.H. Watkins and P. Dayan, “Q-learning,” Machine Learning, vol. 8, iss. 3-4, pp. 279-292, 1992.
[6]	G. A. Rummery and M. Niranjan, “On-line Q-learning using connectionist systems,” Eng. Dept., Cambridge Univ., Cambridge, U.K., Tech. Rep. CUED/F-INFENG/TR 166, 1994.
[7]	State–action–reward–state–action (SARSA) Wiki, URL: https://en.wikipedia.org/wiki/State–action–reward–state–action
[8]	V. R. Konda and J. N. Tsitsiklis, “Actor–critic algorithms,” in Proc. Neural Information Processing Systems Conf., 1999.
[9]	ImageNet dataset, URL: http://www.image-net.org/
[10]	A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Proc. Advances Neural Inf. Process. Syst., pp.1106-1114, 2012.
[11]	V. Mnih, K. Kavukcuoglu, D. Silver, A.A. Rusu, J. Veness, M.G. Bellemare, A. Graves, M. Riedmiller, A.K. Fidjeland, G. Ostrovski et al., “Human-Level Control through Deep Reinforcement Learning,” Nature, vol.518, iss.7540, pp.529-533, 2015.
[12]	D. Silver, A. Huang, C.J. Maddison, A. Guez, L. Sifre, G. Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot et al., “Mastering the Game of Go with Deep Neural Networks and Tree Search,” Nature, vol.529, iss.7587, pp.484-489, 2016.
[13]	Google DeepMind,URL: https://deepmind.com/
[14]	Github,URL: https://github.com/
[15]	Go possibility, https://hfdavidyu.com/2017/01/05/alpha-go/
[16]	S. Levine, P. Pastor, A. Krizhevsky, and D. Quillen, “Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection,” arXiv:1603.02199, 2016.
[17]	E. Jang, S. Vijayanarasimhan, P. Pastor, J. Ibarz, and S. Levine, “End-to-End Learning of Semantic Grasping,” arXiv:1707.01932, 2017.
[18]	Y. Zhu, R. Mottaghi, E. Kolve, J.J. Lim, A. Gupta, L.F. Fei, and A. Farhadi, “Target-driven visual navigation in indoor scenes using deep reinforcement learning,” in 2017 IEEE International Conference on Robotics and Automation (ICRA), pp. 3357-3364, 2017.
[19]	AI2-THOR,3D AI Learning Environment,URL: http://ai2thor.allenai.org/
[20]	K. Arulkumaran, M. Peter Deisenroth, M. Brundage, and A. A. Bharath, “A Brief Survey of Deep Reinforcement Learning,” IEEE Signal Processing Magazine, Special Issue on Deep Learning for Image Understanding, vol. 34, iss.6, pp.26-38, 2017.
[21]	V. Mnih, A. P. Badia, M. Mirza, A. Graves, T. P. Lillicrap, T. Harley, D. Silver, and K. Kavukcuoglu, “Asynchronous methods for deep reinforcement learning,” arXiv:1602.01783, 2016.
[22]	T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, “Continuous control with deep reinforcement learning,” arXiv: 1509.02971, 2016.
[23]	TCP/IP Protocol Suite,URL: 
[24]	https://zh.wikipedia.org/wiki/TCP/IP%E5%8D%8F%E8%AE%AE%E6%97%8F
[25]	OSI model in ISO/IEC 7498-1:1994,URL: https://www.iso.org/standard/20269.html
[26]	HTTP Protocol,URL:https://tools.ietf.org/html/rfc2616
[27]	I. Fette and A. Melnikov, "The Websocket Protocol", IETF Internet draft, 2011.
[28]	I. Hickson, "The Websocket API", W3C candidate recommendation, 2011.
[29]	GEFORCE GTX 10-SERIES LAPTOPS, https://www.nvidia.com/en-us/geforce/products/10series/laptops/
[30]	Google Colud Platform (GCP),URL: https://cloud.google.com/
[31]	Amazon Web Services (AWS),URL: https://aws.amazon.com/
[32]	Universally Unique Identifier (UUID),URL: https://en.wikipedia.org/wiki/Universally_unique_identifier
[33]	Python,URL: https://www.python.org/
[34]	Flask,URL: http://flask.pocoo.org/
[35]	YAML, URL: https://en.wikipedia.org/wiki/YAML
[36]	XML, URL: https://en.wikipedia.org/wiki/XML
[37]	HTML, URL: https://zh.wikipedia.org/wiki/HTML
[38]	A. J. Kinderman and J. F. Monahan, “Computer generation of random variables using the ratio of uniform deviates,” ACM Transactions on Mathematical Software, pp. 257-260, 1977.
[39]	Unity 3D, URL: https://unity3d.com/
[40]	A.W. Moore, “Efficient Memory-Based Learning for Robot Control,” Ph.D. dissertation of University of Cambridge, 1991.
[41]	K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition,” arXiv:1512.03385, Dec. 2015.
[42]	W. R. Thompson, “On the likelihood that one unknown probability exceeds another in view of the evidence of two samples,” Biometrika, vol. 25, no. 3-4, pp. 285-294, 1933.
[43]	J. Wyatt, “Exploration and inference in learning from reinforcement,” Ph.D. dissertation of University of Edinburgh, 1997.
[44]	M. Strens, “A Bayesian framework for reinforcement learning,” in Proceedings of the 17th International Conference on Machine Learning, pp. 943-950, 2000.
[45]	S. Scott, “A modern Bayesian look at the multi-armed bandit,” Applied Stochastic Models in Business and Industry, vol. 26, iss. 6, pp. 639-658, 2010.
[46]	Chapelle, O. and L. Li, “An empirical evaluation of Thompson sampling,” in Proceedings of the 24th International Conference on Neural Information Processing Systems (NIPS), pp. 2249–2257, 2011.
[47]	D. J. Russo, B. V. Roy, A. Kazerouni, I. Osband and Z. Wen, “A Tutorial on Thompson Sampling,” Foundations and Trends in Machine Learning, vol. 11, no. 1, pp. 1-96, 2018. 
[48]	D. Agarwal, B. Long, J. Traupman, D. Xin, and L. Zhang, “Laser: a scalable response prediction platform for online advertising,” in Proceedings of the 7th ACM international conference on Web search and data mining (WSDM), pp. 173-182, 2014.
[49]	J. Kawale, H. H. Bui, B. Kveton, L. T. Thanh, and S. Chawla, “Efficient Thompson sampling for online matrix-factorization recommendation,” in Advances in Neural Information Processing Systems (NIPS), pp. 1297-1305, 2015.
[50]	E. M. Schwartz, E. T. Bradlow, and P. S. Fader, “Customer acquisition via display advertising using multi-armed bandit experiments,” Marketing Science, vol. 36, no. 4, pp. 500-522, 2017.
[51]	D. N. Hill, H. Nassif, Y. Liu, A. Iyer, S.V.N. Vishwanathan, “An efficient bandit algorithm for realtime multivariate optimization,” in Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 1813-1821, 2017.
[52]	M. J. Kim, “Thompson sampling for stochastic control: the finite parameter case,” IEEE Transactions on Automatic Control, vol. 62, iss.12, pp. 6415-6422, 2017.
[53]	S. J. Darak, “Parallel aggregated MAB framework for source selection in multi-antenna RF harvesting circuit,” in IEEE Wireless Communications and Networking Conference (WCNC), pp. 1-6, 2018.
[54]	Y.J. Huang, Object Grasping for Robot Manipulator Based on Behavioral Cloning, Master’s Thesis of Tamkang University, 2018. (In Chinese)
[55]	OpenAI Gym, URL: https://gym.openai.com/
[56]	MuJoCo, URL: https://mujoco.org/
[57]	M. Yan, I. Frosio, and I. Frosio, “Sim-to-Real Transfer of Accurate Grasping with Eye-In-Hand Observations and Continuous Control,” Neural Information Processing Systems (NIPS), 2017.
[58]	V. Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, iss. 12, vol. 39, pp. 2481-2495, 2017.
[59]	W. Dabney, G. Ostrovski, D. Silver, and R. Munos, “Implicit Quantile Networks for Distributional Reinforcement Learning,” in International Conference on Machine Learning (ICML), vol. 80, pp. 1096-1105, 2018.
[60]	Y. Burda, H. Edwards, A. Storkey, and O. Klimov, “Exploration by Random Network Distillation,” arXiv: 1810.12894, 2018.
論文全文使用權限
校內
紙本論文於授權書繳交後1年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後1年公開
校外
同意授權
校外電子論文於授權書繳交後1年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信