§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1108202310183600
DOI 10.6846/tku202300566
論文名稱(中文) 抽樣方法於全基因組關聯性研究:基於概述統計量之多元薈萃分析
論文名稱(英文) Sampling methods in genome-wide association studies: a summary statistics-based multivariate meta-analysis
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 111
學期 2
出版年 112
研究生(中文) 謝秉翰
研究生(英文) Ping-Han Hsieh
學號 611650028
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2023-07-19
論文頁數 58頁
口試委員 指導教授 - 謝璦如(142438@mail.tku.edu.tw)
口試委員 - 張書瑋
口試委員 - 廖文伶
關鍵字(中) 基於概述統計量的多元薈萃分析
抽樣方法於全基因組關聯性研究
慢性疾病
關鍵字(英) summary statistics-based multivariate meta-analysis
Sampling methods in genome-wide association studies
chronic disease
第三語言關鍵字
學科別分類
中文摘要
全球的慢性疾病相當多種,而且全球約有4.5億人患有至少一種慢性疾病,其中有許多疾病是可以提早預防與治療的,像是因疾病致死的前十大之糖尿病中,第二型糖尿病可以透過維持健康體重、健康飲食與不抽菸等,控制環境因子來避免,還有因人口老化與工作因素而逐漸流行的關節炎,也可以透過改變生活習慣等外部因素來避免,除了這些外部環境變數之外,也有著基因遺傳的可能性,近年來開始熱門於基因與疾病的研究,更有著合併多個資料庫來進行分析,與執行精準醫療的計畫,因此本研究以關節炎與第二型糖尿病為出發點,對台灣人體生物資料庫(Taiwan Biobank, TWB)進行分析,並且合併公開的外部資料庫,來達到跨區域與跨種族的基因分析。
  本文先以全基因組關聯性研究(Genome-wide association studies,GWAS)對TWB的兩種慢行疾病進行分析,接著與公開的外部資料庫進行合併後,使用基於概述統計量之多元薈萃分析(summary statistics-based multivariate meta-analysis of genome-wide association studies using canonical correlation analysis , metaCCA),會將TWB與不同資料庫合併進行分析,也會將全部資料庫合併與進行分析,最後出做比較。
  由於每一個外部資料庫在進行疾病篩選時,會有很大的不同,因此分析出來的GWAS結果也會有所不同,因此在本研究中會使用不同的抽樣方法來生成抽樣資料,將所有抽樣資料透過GWAS分析,得到多筆類似外部資料庫的結果,將這些抽樣結果放入metaCCA進行分析,來研究在相同疾病篩選下,可能會產生的影響,同時也使用科摩哥洛夫-史密諾夫檢定(Kolmogorov-Smirnov test,KS test),來檢定抽樣出來之GWAS分配與原始資料之GWAS分配的一致性。
  研究結果發現,合併公開的外部資料庫之GWAS結果後,會因為所選的疾病差異或考量校正的變數不同,而導致最終metaCCA的分析結果,與原始資料庫分析的結果受到巨大的轉變。而使用抽樣方法抽樣資料,經過metaCCA分析後,可以確定在相同的疾病篩選條件下,其顯著的SNP會變得更加顯著。而不同的抽樣方法,經KS test結果發現原始GWAS與只抽取資料庫中五分之一的受測者,每種抽樣方法的結果都非常接近。因此可以確定metaCCA分析,在生物醫學中扮演著,可以同時分析多種疾病與多基因之間的關係,就算是少見的疾病、基因亦或是資料量不足,也能透過抽樣方法,可以找出相對顯著性的SNP,供生物醫學研究之用。
英文摘要
There are numerous chronic diseases worldwide, with approximately 450 million people affected by at least one chronic disease globally. Many of these diseases can be prevented and treated early. For instance, type 2 diabetes, which is among the top ten causes of death, can be managed by maintaining a healthy body weight, adopting a healthy diet, and avoiding smoking to control environmental factors. Similarly, conditions like arthritis, which are becoming more prevalent due to population aging and work-related factors, can be prevented by modifying lifestyle habits and other external factors. In addition to these environmental variables, there is also a genetic predisposition to consider. In recent years, research on the relationship between genes and diseases has gained popularity, along with the integration of multiple databases for analysis and the implementation of precision medicine initiatives. Therefore, this paper focuses on arthritis and type 2 diabetes, analyzing the Taiwan Biobank (TWB) and combining it with publicly available external databases to achieve cross-regional and cross-ethnicity genetic analysis.
The study begins by conducting a genome-wide association study (GWAS) on the two chronic diseases in TWB. Subsequently, the TWB data is merged with publicly available external databases, and a summary statistics-based multivariate meta-analysis of genome-wide association studies using canonical correlation analysis (metaCCA) is performed. This analysis involves merging TWB with different databases and also combining all the databases for analysis. Finally, a comparison of the results is made.
Since each external database undergoes different disease selection and screening processes, the GWAS results obtained can vary significantly. Therefore, this paper also employs different sampling methods to generate sampling data, conducts GWAS analyses on all sampling data to obtain multiple sets of results similar to those from external databases, and incorporates these sampling results into the metaCCA analysis. This process aims to demonstrate the potential outcomes that may arise under the same disease selection and screening conditions. Additionally, the Kolmogorov-Smirnov test (KS test) is used to examine the differences between the GWAS distributions of the sampled data and the original data.
The research findings reveal that merging GWAS results from publicly available external databases can lead to significant changes in the final metaCCA analysis results due to differences in the selected diseases. By simulating data using sampling methods and conducting metaCCA analysis, it is established that under the same disease screening conditions, significant SNPs become more pronounced. Furthermore, it is observed that different sampling methods yield GWAS results that closely resemble the original GWAS results, as evidenced by the KS test, even when only one-fifth of the individuals in the database are sampled. Therefore, it can be concluded that metaCCA analysis plays a crucial role in biomedical research by simultaneously analyzing the relationships between multiple diseases and multiple genes. Even for rare diseases and genes, this method can identify the most significant SNPs, providing valuable references for medical research. MetaCCA analysis has the potential to advance our understanding of complex disease mechanisms and contribute to the development of precision medicine.
第三語言摘要
論文目次
目錄
目錄	I
圖目錄	III
表目錄	V
第一章 緒論	1
第一節 研究動機	1
第二節 研究目的	1
第二章 文獻探討	3
第一節 台灣人體生物資料庫	3
第二節 基於概述統計量的多元薈萃分析	3
第三節 外部資料庫	4
第四節 抽樣方法應用於薈萃分析	5
第三章 研究方法	7
第一節 流程圖與資料庫	7
第一小節 台灣人體生物資料庫	7
第二小節 日本人體生物資料庫	8
第三小節 英國人體生物資料庫(UK Biobank)	9
第二節 資料品質控管(Quality Control)	10
第三節 基於概述統計量的多元薈萃分析(metaCCA)	12
第一小節 連鎖不平衡剪枝與聚集	13
第二小節 概述統計量的多元薈萃分析(metaCCA)	14
第三小節 結合外部資料庫	17
第四節 抽樣方法	18
第一小節 完全隨機抽樣與分層隨機抽樣	18
第二小節 K折交叉抽樣	19
第三小節 拔靴抽樣	19
第五節 科摩哥洛夫-史密諾夫檢定(Kolmogorov-Smirnov test, KS test)	19
第四章 研究分析結果	21
第一節 疾病的篩選條件	21
第二節 各項品質控管結果	23
第三節 連鎖不平衡剪枝與聚集結果比較	25
第一小節 結合外部資料庫	25
第二小節 連鎖不平衡剪枝結果	29
第三小節 連鎖不平衡聚集結果	30
第四小節 SNPs篩選結果	32
第四節 多元薈萃分析結果	37
第一小節 台灣生物資料庫分析結果	37
第二小節 台灣與日本生物資料庫分析結果	38
第三小節 台灣與英國生物資料庫分析結果	39
第四小節 台灣與日本與英國生物資料庫分析結果	40
第五小節 合併外部資料庫之總結	41
第五節 抽樣方法結果比較	43
第一小節 關節炎KS檢定結果與熱點圖	44
第二小節 糖尿病KS檢定結果與熱點圖	44
第六節 抽樣方法之多元薈萃分析結果	45
第一小節 完全隨機抽樣分析與分層隨機抽樣分析結果	45
第二小節 K折抽樣分析結果	48
第三小節 拔靴抽樣分析結果	51
第五章 結論與建議	55
第一節 結論	55
第二節 討論與未來應用	56
參考文獻	57
 
圖目錄
圖 1 研究流程圖	7
圖 2 日本生物資料庫類風濕關節炎曼哈頓圖	8
圖 3 日本生物資料庫第二型糖尿病曼哈頓圖	9
圖 4 英國生物資料庫化膿性關節炎曼哈頓圖	9
圖 5 英國生物資料庫第二型糖尿病曼哈頓圖	10
圖 6 虛擬碼邏輯判斷迴圈圖	11
圖 7 完全共變異矩陣演算法過程圖	17
圖 8 TWB原始之退化性關節炎曼哈頓圖	24
圖 9 TWB原始之類風溼性關節炎曼哈頓圖	25
圖 10 TWB原始之第二型糖尿病曼哈頓圖	25
圖 11 各個資料庫合併後之關節炎的曼哈頓圖	27
圖 12 各個資料庫合併後之第二型糖尿病的曼哈頓圖	28
圖 13 SNP篩選(連鎖不平衡剪枝)後TWB的退化性關節炎之曼哈頓圖	29
圖 14 SNP篩選(連鎖不平衡剪枝)後TWB的類風溼性關節炎之曼哈頓圖	30
圖 15 SNP篩選(連鎖不平衡聚集)後TWB的退化性關節炎之曼哈頓圖	31
圖 16 SNP篩選(連鎖不平衡聚集)後TWB的類風溼性關節炎之曼哈頓圖	31
圖 17 SNP篩選後各個資料庫的關節炎之曼哈頓圖	33
圖 18 SNP篩選後各個資料庫的第二型糖尿病之曼哈頓圖	34
圖 19 SNP篩選後各個資料庫的關節炎之曼哈頓圖	35
圖 20 SNP篩選後各個資料庫的第二型糖尿病之曼哈頓圖	36
圖 21 TWB之metaCCA曼哈頓圖	37
圖 22 TWB之metaCCA曼哈頓圖	38
圖 23 TWB加入BBJ後之metaCCA曼哈頓圖	38
圖 24 TWB加入BBJ後之metaCCA曼哈頓圖	39
圖 25 TWB加入UKB後之metaCCA曼哈頓圖	39
圖 26 TWB加入UKB後之metaCCA曼哈頓圖	40
圖 27 TWB加入外部資料庫後之metaCCA曼哈頓圖	41
圖 28 TWB加入外部資料庫後之metaCCA曼哈頓圖	41
圖 29 TWB與TWB加入外部資料庫後之metaCCA曼哈頓圖比較圖	42
圖 30 TWB與TWB加入外部資料庫後之metaCCA曼哈頓圖比較圖	43
圖 31 關節炎各種抽樣的GWAS對於原關節炎的GWAS之KS檢定熱點圖	44
圖 32 糖尿病各種抽樣的GWAS對於原糖尿病的GWAS之KS檢定熱點圖	45
圖 33 完全隨機抽樣之metaCCA曼哈頓圖	46
圖 34 完全隨機抽樣之metaCCA曼哈頓圖	46
圖 35 分層隨機抽樣之metaCCA曼哈頓圖	47
圖 36 分層隨機抽樣之metaCCA曼哈頓圖	47
圖 37 5折交叉抽樣的訓練集之metaCCA曼哈頓圖	48
圖 38 5折交叉抽樣的測試集之metaCCA曼哈頓圖	49
圖 39 2折交叉抽樣的訓練集之metaCCA曼哈頓圖	49
圖 40 2折交叉抽樣的測試集之metaCCA曼哈頓圖	50
圖 41 5折交叉抽樣的訓練集之metaCCA曼哈頓圖	50
圖 42 5折交叉抽樣的測試集之metaCCA曼哈頓圖	51
圖 43 100次拔靴抽樣之metaCCA曼哈頓圖	52
圖 44 50次拔靴抽樣之metaCCA曼哈頓圖	52
圖 45 10次拔靴抽樣之metaCCA曼哈頓圖	53
圖 46 100次拔靴抽樣之metaCCA曼哈頓圖	53
圖 47 50次拔靴抽樣之metaCCA曼哈頓圖	54
圖 48 10次拔靴抽樣之metaCCA曼哈頓圖	54
 
表目錄
表 1 QC指令	10
表 2 台灣人體生物資料庫退化性關節炎填答表格	21
表 3 台灣人體生物資料庫類風溼性關節炎填答表格	22
表 4 台灣人體生物資料庫糖尿病填答表格	23
表 5 品質控管後受測者人數表格	23
表 6 品質控管後SNPs數量表格	24
表 7 資料庫合併前後SNPs數量表格	26
表 8 關節炎SNP數量表	30
  
參考文獻
參考文獻
1.	Cichonska, A., et al. (2016). "metaCCA: summary statistics-based multivariate meta-analysis of genome-wide association studies using canonical correlation analysis." Bioinformatics 32(13): 1981-1989.
2.	Chen, W. C., et al. (2017). "rs2841277 (PLD4) is associated with susceptibility and rs4672495 is associated with disease activity in rheumatoid arthritis." Oncotarget 8(38): 64180-64190.
3.	Wong, H. S., et al. (2022). "Genome-wide association study identifies genetic risk loci for adiposity in a Taiwanese population." PLoS Genet 18(1): e1009952.
4.	Ge, T., et al. (2022). "Development and validation of a trans-ancestry polygenic risk score for type 2 diabetes in diverse populations." Genome Med 14(1): 70.
5.	Hotelling,H. (1936). Relations between two sets of variates. Biometrika, 28, 321–377.
6.	Jia, X., et al. (2019). "Multivariate analysis of genome-wide data to identify potential pleiotropic genes for type 2 diabetes, obesity and coronary artery disease using MetaCCA." Int J Cardiol 283: 144-150.
7.	Tang, C. S. and M. A. R. Ferreira (2012). "A gene-based test of association using canonical correlation analysis." Bioinformatics 28(6): 845-850.
8.	O'Reilly, P. F., et al. (2012). "MultiPhen: joint model of multiple phenotypes can increase discovery in GWAS." PLoS One 7(5): e34861.
9.	Jia, X., et al. (2020). "Identification of 67 Pleiotropic Genes Associated With Seven Autoimmune/Autoinflammatory Diseases Using Multivariate Statistical Analysis." Front Immunol 11: 30.
10.	He, P., et al. (2021). "Identification of Potential Pleiotropic Genes for Immune and Skeletal Diseases Using Multivariate MetaCCA Analysis." Curr Genomics 22(8): 596-606.
11.	Zeng, H., et al. (2021). "Type 2 Diabetes Is Causally Associated With Reduced Serum Osteocalcin: A Genomewide Association and Mendelian Randomization Study." J Bone Miner Res 36(9): 1694-1707.
12.	Gagliano Taliun, S. A., et al. (2020). "Exploring and visualizing large-scale genetic associations by using PheWeb." Nat Genet 52(6): 550-552.
13.	Sato, G., et al. (2023). "Pan-cancer and cross-population genome-wide association studies dissect shared genetic backgrounds underlying carcinogenesis." Nat Commun 14(1): 3671.
14.	Shirai, Y., et al. (2022). "Multi-trait and cross-population genome-wide association studies across autoimmune and allergic diseases identify shared and distinct genetic component." Ann Rheum Dis 81(9): 1301-1312.
15.	McGuire, D., et al. (2021). "Model-based assessment of replicability for genome-wide association meta-analysis." Nat Commun 12(1): 1964.
16.	Albiñana, C., et al. (2021). "Leveraging both individual-level genetic data and GWAS summary statistics increases polygenic prediction." Am J Hum Genet 108(6): 1001-1011.
17.	Brorson, I. S., et al. (2022). "Global DNA methylation changes in treated and untreated MS patients measured over time." J Neuroimmunol 364: 577808.
18.	Liao, J., et al. (2014). "Meta-analysis of genome-wide association studies in multiethnic Asians identifies two loci for age-related nuclear cataract." Hum Mol Genet 23(22): 6119-6128.
19.	Marees, A. T., et al. (2018). "A tutorial on conducting genome-wide association studies: Quality control and statistical analysis." Int J Methods Psychiatr Res 27(2): e1608.
20.	Ledoit,O. and Wolf,M. (2003) Improved estimation of the covariance matrix of stock returns with an application to portfolio selection. J. Empir. Finance, 10, 603–621.
21.	Fortune, M. D. and C. Wallace (2019). "simGWAS: a fast method for simulation of large scale case-control GWAS summary statistics." Bioinformatics 35(11): 1901-1906.
論文全文使用權限
國家圖書館
同意無償授權國家圖書館,書目與全文電子檔於繳交授權書後, 於網際網路立即公開
校內
校內紙本論文立即公開
同意電子論文全文授權於全球公開
校內電子論文立即公開
校外
同意授權予資料庫廠商
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信