系統識別號 | U0002-1008202112445500 |
---|---|
DOI | 10.6846/TKU.2021.00229 |
論文名稱(中文) | 特徵篩選於遺傳疾病之基因-基因交互作用研究 |
論文名稱(英文) | Feature screening of gene-gene Interaction in genetic disease research |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系應用統計學碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 109 |
學期 | 2 |
出版年 | 110 |
研究生(中文) | 陳悟一 |
研究生(英文) | Wu-Yi Chen |
學號 | 608650205 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2021-07-13 |
論文頁數 | 133頁 |
口試委員 |
指導教授
-
謝璦如
委員 - 張書瑋 委員 - 陳蔓樺 |
關鍵字(中) |
萃取分析 多維度降維法 套所法 連鎖不平衡分數 基因-基因交互 關係提取 |
關鍵字(英) |
Meta anaysi Multifactor Dimensionality Reduction lasso Linkage Disequilibrium gene-gene interaction extraction |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
隨著檢測 SNP 技術成熟,全基因關聯研究日益普及,獲取全基因關聯性研究結果變得越加容易。在大數據資料庫中,針對交互作用的提取卻遇到資料維度上的問題,如何有效降低資料維度以及建立 SNP 預選集是個相當大的挑戰。為了有效降低資料維度,我們提出兩個分析方法,將多個關聯性結果整合成一個SNP的重要分數的方法,包含將各個關聯分析結果的 P-value、勝算比、以及樣本數做加權,再根據重要分數進行排名做為建立預選集的依據,以降低資料維度。我們針對不同資料來源、合併不同人種及樣本數量的關聯性研究結果以及不同計分方式構建出的預選集套入多因子降維法以及 LASSO 進行交互作用提取。最後,我們比較不同計算重要分數的方法的優缺點並提出建議,供不同研究需求者選擇方法的參考。 |
英文摘要 |
With the advancement of SNP detection technology and the growing popularity of genome reports, obtaining the results of genome-wide association studies (GWAS) has become easier. In a big data database, the extraction of gene-gene interaction has encountered high-dimensional problems. In this study, we proposed extraction methods for establishing a candidate SNP set that integrates multiple GWAS results into an important score according to P-values, odds ratios, and sample sizes. Then, the important scores were ranked as the basis for establishing the set of candidate SNPs. Furthermore, the candidate SNP set also was based on multiple data sources which included diverse races and different sample sizes. Finally, the established candidate SNP set is used in multifactor dimensionality reduction (MDR) and LASSO to detect GENE-GENE interaction. We compared the advantages and disadvantages of different important score extraction methods and tried to make suggestions for different research needs in gene-gene interaction analysis. |
第三語言摘要 | |
論文目次 |
目錄 I 表目錄 III 圖目錄 VI 第一章 緒論 1 第一節. 研究背景 1 第二節. 研究目的 1 第三節. 名詞界定 1 第二章 文獻探討 3 第一節. 基因關聯研究 3 第二節. 基因-基因交互作用 3 第三節. 萃取分析分析 (meta analysis) 4 第四節. 連鎖所不平衡 (Linkage Disequilibrium) 5 第三章 資料庫介紹 6 第一節. 英國生物人體資料庫 6 第二節. 台灣人體生物資料庫 6 第三節. GWAS Catalog 6 第四章 研究方法 8 第一節. 流程圖 8 第二節. 獲取多方關聯分析結果 10 第三節. 排除人種因子 12 第四節. SNP來源與統計摘要來源 13 第五節. 構建SNP預選集 16 第六節. 交互作用選擇 18 第七節. 模擬 19 第八節. 生物資訊 20 第五章 研究結果 21 第一節. 模擬結果 21 第二節. 關聯分析結果 22 第三節. SNP預選集與重要分數 24 第四節. 顯著交互作用數量 27 第五節. 生物資訊 35 第六章 討論與結論 36 第一節. 討論 36 第二節. 結論 36 第三節. 未來研究發展 37 第七章 附錄 38 參考文獻 131 表目錄 表 1本次研究判定個預選集範例1 14 表 2本次研究判定個預選集範例2 15 表 3基因AGT ACE 關聯分析與連鎖不平衡分數 19 表 4MDR判定交互作用混淆舉證 21 表 5LASSO判定交互作用混敖舉證 21 表 6UKB與TWB資料集SNP數量 22 表 7GWAS gatalog不同種族下提供關聯分析數量 23 表 8GWAS gatalog不同種族下提供勝算比數量 23 表 9在相同SNP來源與評分方法加入不同關聯性分析預選集更新數目 24 表 10在相同SNP來源與關聯性分析來源,不同評分方式更新預選集數目 25 表 11各預選集透過MDR所挑選的交互作用數量 28 表 12各預選集顯著交互作用經過拔靴法仍顯著的交互作用數目 30 表 13不同預選集在LASSO提取出的顯著交互作用數 33 表 14各評分方法比較 37 表 15 SNP來源為UKB使用Z分數法各預選集 42 表 16 SNP來源為UKB使用ZOR分數法各預選集 49 表 17 SNP來源為UKB使用ZORM分數法各預選集 54 表 18 SNP來源為UKB與TWB使用Z分數法各預選集 59 表 19 SNP來源為UKB與TWB使用ZOR分數法各預選集 64 表 20 SNP來源為UKB與TWB使用ZORM分數法各預選集 74 表 21 SNP來源為UKB關聯分析來源為UKB使用Z分數法或ZOR分數法MDR顯著交互作用 76 表 22 SNP來源為UKB關聯分析來源為UKB病人自述使用ZORM分數法MDR顯著交互作用 85 表 23 SNP來源為UKB關聯分析來源為UKB與TWB使用Z分數法或ZOR分數法MDR顯著交互作用 90 表 24 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB使用Z分數法或ZOR分數法MDR顯著交互作用 95 表 25 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB使用ZORM分數法MDR顯著交互作用 95 表 26 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB與GEAS catalog使用ZORM分數法MDR顯著交互作用 95 表 27 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB與GEAS catalog使用Z分數法與ZOR分數法MDR顯著交互作用 100 表 28 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB與GEAS catalog使用Z分數法與ZOR分數法MDR顯著交互作用 105 表 29 SNP來源為同時存在於UKB關聯分析來源為UKB使用Z分數法LOASSO顯著交互作用 106 表 30 SNP來源為同時存在於UKB關聯分析來源為UKB使用ZOR分數法LOASSO顯著交互作用 107 表 31 SNP來源為同時存在於UKB關聯分析來源為UKB與TWB使用Z分數法LOASSO顯著交互作用 108 表 32 SNP來源為同時存在於UKB關聯分析來源為UKB與TWB使用ZOR分數法LOASSO顯著交互作用 109 表 33 SNP來源為同時存在於UKB關聯分析來源為UKB與TWB與GWAS catalog使用Z分數法LOASSO顯著交互作用 110 表 34 SNP來源為同時存在於UKB關聯分析來源為UKB與TWB與GWAS catalog使用ZOR分數法LOASSO顯著交互作用 111 表 35 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB使用Z分數法LOASSO顯著交互作用 112 表 36 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB使用ZOR分數法LOASSO顯著交互作用 112 表 37 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB使用Z分數法LOASSO顯著交互作用 113 表 38 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB使用ZOR分數法LOASSO顯著交互作用 114 表 39 SNP來源為存在於UKB關聯分析來源為UKB使用ZORM分數法LOASSO顯著交互作用 117 表 40 SNP來源為存在於UKB與TWB關聯分析來源為UKB使用ZORM分數法LOASSO顯著交互作用 120 表 41 SNP來源為存在於UKB關聯分析來源為UKB與TWB使用ZORM分數法LOASSO顯著交互作 121 表 42 SNP來源為存在於UKB關聯分析來源為UKB與TWB與使用ZORM分數法LOASSO顯著交互作 122 表 43 SNP來源為存在於UKB關聯分析來源為UKB與TWB與GWAS catalog使用ZORM分數法LOASSO顯著交互作 123 表 44- SNP來源為存在於UKB與TWB關聯分析來源為UKB與TWB使用ZORM分數法LOASSO顯著交互作 125 表 45 SNP來源為存在於UKB與TWB關聯分析來源為UKB與TWB與GWAS catalog使用ZORM分數法LOASSO顯著交互作 127 表 46坐落於KEGG路徑的SNP與相關疾病 130 表 47相關名詞解釋 130 圖目錄 圖 1 流程圖 8 |
參考文獻 |
Bien, J., et al. (2013). "A lasso for hierarchical interactions." Annals of statistics 41(3): 1111. Breiman, L. (2001). "Random forests." Machine learning 45(1): 5-32. Bulik-Sullivan, B. K., et al. (2015). "LD Score regression distinguishes confounding from polygenicity in genome-wide association studies." Nature genetics 47(3): 291-295. Buniello, A., et al. (2019). "The NHGRI-EBI GWAS Catalog of published genome-wide association studies, targeted arrays and summary statistics 2019." Nucleic acids research 47(D1): D1005-D1012. Chattopadhyay, A. and T.-P. Lu (2019). "Gene-gene interaction: the curse of dimensionality." Annals of translational medicine 7(24). Cho, Y., et al. (2004). "Multifactor-dimensionality reduction shows a two-locus interaction associated with Type 2 diabetes mellitus." Diabetologia 47(3): 549-554. Consortium, G. P. (2015). "A global reference for human genetic variation." Nature 526(7571): 68. Consortium, I. H. G. S. (2001). "Initial sequencing and analysis of the human genome." Nature 409(6822): 860-921. Cooper, H., et al. (2019). The handbook of research synthesis and meta-analysis, Russell Sage Foundation. Cortes, C. and V. Vapnik (1995). "Support-vector networks." Machine learning 20(3): 273-297. Fathima, N., et al. (2019). "Association and gene–gene interaction analyses for polymorphic variants in CTLA-4 and FOXP3 genes: role in susceptibility to autoimmune thyroid disease." Endocrine 64(3): 591-604. Hindorff, L. A., et al. (2009). "Potential etiologic and functional implications of genome-wide association loci for human diseases and traits." Proceedings of the National Academy of Sciences 106(23): 9362-9367. Ioannidis, J. P., et al. (2009). "Validating, augmenting and refining genome-wide association signals." Nature Reviews Genetics 10(5): 318-329. Khalil, H., et al. (2017). "OPRM1 and COMT gene–gene interaction is associated with postoperative pain and opioid consumption after orthopedic trauma." Biological research for nursing 19(2): 170-179. Lawrence, R., et al. (2010). "CCRaVAT and QuTie-enabling analysis of rare variants in large-scale case control and quantitative trait association studies." BMC bioinformatics 11(1): 1-8. Lewontin, R. C. (1964). "The interaction of selection and linkage. I. General considerations; heterotic models." Genetics 49(1): 49. Madsen, B. E., et al. (2007). "A periodic pattern of SNPs in the human genome." Genome research 17(10): 1414-1419. Marees, A. T., et al. (2018). "A tutorial on conducting genome‐wide association studies: Quality control and statistical analysis." International journal of methods in psychiatric research 27(2): e1608. Moore, J. H. and S. M. Williams (2002). "New strategies for identifying gene-gene interactions in hypertension." Annals of medicine 34(2): 88-95. Ni, G., et al. (2018). "Estimation of genetic correlation via linkage disequilibrium score regression and genomic restricted maximum likelihood." The American Journal of Human Genetics 102(6): 1185-1194. Purcell, S., et al. (2007). "PLINK: a tool set for whole-genome association and population-based linkage analyses." The American Journal of Human Genetics 81(3): 559-575. Ritchie, M. D., et al. (2001). "Multifactor-dimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer." The American Journal of Human Genetics 69(1): 138-147. Sarkar, C., et al. (2018). "Neighbourhood walkability and incidence of hypertension: Findings from the study of 429,334 UK Biobank participants." International journal of hygiene and environmental health 221(3): 458-468. Slatkin, M. (2008). "Linkage disequilibrium—understanding the evolutionary past and mapping the medical future." Nature Reviews Genetics 9(6): 477-485. Sudlow, C., et al. (2015). "UK biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age." Plos med 12(3): e1001779. Teo, Y.-Y. and X. Sim (2010). "Patterns of linkage disequilibrium in different populations: implications and opportunities for lipid-associated loci identified from genome-wide association studies." Current opinion in lipidology 21(2): 104-115. Tibshirani, R. (1996). "Regression shrinkage and selection via the lasso." Journal of the Royal Statistical Society: Series B (Methodological) 58(1): 267-288 |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信