§ 瀏覽學位論文書目資料
系統識別號 U0002-1008202112445500
DOI 10.6846/TKU.2021.00229
論文名稱(中文) 特徵篩選於遺傳疾病之基因-基因交互作用研究
論文名稱(英文) Feature screening of gene-gene Interaction in genetic disease research
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 109
學期 2
出版年 110
研究生(中文) 陳悟一
研究生(英文) Wu-Yi Chen
學號 608650205
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2021-07-13
論文頁數 133頁
口試委員 指導教授 - 謝璦如
委員 - 張書瑋
委員 - 陳蔓樺
關鍵字(中) 萃取分析
多維度降維法
套所法
連鎖不平衡分數
基因-基因交互 關係提取
關鍵字(英) Meta anaysi
Multifactor Dimensionality Reduction
lasso
Linkage Disequilibrium
gene-gene interaction extraction
第三語言關鍵字
學科別分類
中文摘要
隨著檢測 SNP 技術成熟,全基因關聯研究日益普及,獲取全基因關聯性研究結果變得越加容易。在大數據資料庫中,針對交互作用的提取卻遇到資料維度上的問題,如何有效降低資料維度以及建立 SNP 預選集是個相當大的挑戰。為了有效降低資料維度,我們提出兩個分析方法,將多個關聯性結果整合成一個SNP的重要分數的方法,包含將各個關聯分析結果的 P-value、勝算比、以及樣本數做加權,再根據重要分數進行排名做為建立預選集的依據,以降低資料維度。我們針對不同資料來源、合併不同人種及樣本數量的關聯性研究結果以及不同計分方式構建出的預選集套入多因子降維法以及 LASSO 進行交互作用提取。最後,我們比較不同計算重要分數的方法的優缺點並提出建議,供不同研究需求者選擇方法的參考。
英文摘要
With the advancement of SNP detection technology and the growing popularity of genome reports, obtaining the results of genome-wide association studies (GWAS) has become easier. In a big data database, the extraction of gene-gene interaction has encountered high-dimensional problems. In this study, we proposed extraction methods for establishing a candidate SNP set that integrates multiple GWAS results 
into an important score according to P-values, odds ratios, and sample sizes. Then, the important scores were ranked as the basis for establishing the set of candidate SNPs. 
Furthermore, the candidate SNP set also was based on multiple data sources which included diverse races and different sample sizes. Finally, the established candidate 
SNP set is used in multifactor dimensionality reduction (MDR) and LASSO to detect GENE-GENE interaction. We compared the advantages and disadvantages of different important score extraction methods and tried to make suggestions for different research needs in gene-gene interaction analysis.
第三語言摘要
論文目次
目錄	I
表目錄	III
圖目錄	VI
第一章	緒論	1
第一節.	研究背景	1
第二節.	研究目的	1
第三節.	名詞界定	1
第二章	文獻探討	3
第一節.	基因關聯研究	3
第二節.	基因-基因交互作用	3
第三節.	萃取分析分析 (meta analysis)	4
第四節.	連鎖所不平衡 (Linkage Disequilibrium)	5
第三章	資料庫介紹	6
第一節.	英國生物人體資料庫	6
第二節.	台灣人體生物資料庫	6
第三節.	GWAS Catalog	6
第四章	研究方法	8
第一節.	流程圖	8
第二節.	獲取多方關聯分析結果	10
第三節.	排除人種因子	12
第四節.	SNP來源與統計摘要來源	13
第五節.	構建SNP預選集	16
第六節.	交互作用選擇	18
第七節.	模擬	19
第八節.	生物資訊	20
第五章	研究結果	21
第一節.	模擬結果	21
第二節.	關聯分析結果	22
第三節.	SNP預選集與重要分數	24
第四節.	顯著交互作用數量	27
第五節.	生物資訊	35
第六章	討論與結論	36
第一節.	討論	36
第二節.	結論	36
第三節.	未來研究發展	37
第七章	附錄	38
參考文獻	131
 
表目錄
表 1本次研究判定個預選集範例1	14
表 2本次研究判定個預選集範例2	15
表 3基因AGT ACE 關聯分析與連鎖不平衡分數	19
表 4MDR判定交互作用混淆舉證	21
表 5LASSO判定交互作用混敖舉證	21
表 6UKB與TWB資料集SNP數量	22
表 7GWAS gatalog不同種族下提供關聯分析數量	23
表 8GWAS gatalog不同種族下提供勝算比數量	23
表 9在相同SNP來源與評分方法加入不同關聯性分析預選集更新數目	24
表 10在相同SNP來源與關聯性分析來源,不同評分方式更新預選集數目	25
表 11各預選集透過MDR所挑選的交互作用數量	28
表 12各預選集顯著交互作用經過拔靴法仍顯著的交互作用數目	30
表 13不同預選集在LASSO提取出的顯著交互作用數	33
表 14各評分方法比較	37
表 15 SNP來源為UKB使用Z分數法各預選集	42
表 16 SNP來源為UKB使用ZOR分數法各預選集	49
表 17 SNP來源為UKB使用ZORM分數法各預選集	54
表 18 SNP來源為UKB與TWB使用Z分數法各預選集	59
表 19 SNP來源為UKB與TWB使用ZOR分數法各預選集	64
表 20 SNP來源為UKB與TWB使用ZORM分數法各預選集	74
表 21 SNP來源為UKB關聯分析來源為UKB使用Z分數法或ZOR分數法MDR顯著交互作用	76
表 22 SNP來源為UKB關聯分析來源為UKB病人自述使用ZORM分數法MDR顯著交互作用	85
表 23 SNP來源為UKB關聯分析來源為UKB與TWB使用Z分數法或ZOR分數法MDR顯著交互作用	90
表 24 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB使用Z分數法或ZOR分數法MDR顯著交互作用	95
表 25 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB使用ZORM分數法MDR顯著交互作用	95
表 26 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB與GEAS catalog使用ZORM分數法MDR顯著交互作用	95
表 27 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB與GEAS catalog使用Z分數法與ZOR分數法MDR顯著交互作用	100
表 28 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB與GEAS catalog使用Z分數法與ZOR分數法MDR顯著交互作用	105
表 29 SNP來源為同時存在於UKB關聯分析來源為UKB使用Z分數法LOASSO顯著交互作用	106
表 30 SNP來源為同時存在於UKB關聯分析來源為UKB使用ZOR分數法LOASSO顯著交互作用	107
表 31 SNP來源為同時存在於UKB關聯分析來源為UKB與TWB使用Z分數法LOASSO顯著交互作用	108
表 32 SNP來源為同時存在於UKB關聯分析來源為UKB與TWB使用ZOR分數法LOASSO顯著交互作用	109
表 33 SNP來源為同時存在於UKB關聯分析來源為UKB與TWB與GWAS catalog使用Z分數法LOASSO顯著交互作用	110
表 34 SNP來源為同時存在於UKB關聯分析來源為UKB與TWB與GWAS catalog使用ZOR分數法LOASSO顯著交互作用	111
表 35 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB使用Z分數法LOASSO顯著交互作用	112
表 36 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB使用ZOR分數法LOASSO顯著交互作用	112
表 37 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB使用Z分數法LOASSO顯著交互作用	113
表 38 SNP來源為同時存在於UKB與TWB關聯分析來源為UKB與TWB使用ZOR分數法LOASSO顯著交互作用	114
表 39 SNP來源為存在於UKB關聯分析來源為UKB使用ZORM分數法LOASSO顯著交互作用	117
表 40 SNP來源為存在於UKB與TWB關聯分析來源為UKB使用ZORM分數法LOASSO顯著交互作用	120
表 41 SNP來源為存在於UKB關聯分析來源為UKB與TWB使用ZORM分數法LOASSO顯著交互作	121
表 42 SNP來源為存在於UKB關聯分析來源為UKB與TWB與使用ZORM分數法LOASSO顯著交互作	122
表 43 SNP來源為存在於UKB關聯分析來源為UKB與TWB與GWAS catalog使用ZORM分數法LOASSO顯著交互作	123
表 44- SNP來源為存在於UKB與TWB關聯分析來源為UKB與TWB使用ZORM分數法LOASSO顯著交互作	125
表 45 SNP來源為存在於UKB與TWB關聯分析來源為UKB與TWB與GWAS catalog使用ZORM分數法LOASSO顯著交互作	127
表 46坐落於KEGG路徑的SNP與相關疾病	130
表 47相關名詞解釋	130
 
圖目錄
圖 1 流程圖	8
參考文獻
Bien, J., et al. (2013). "A lasso for hierarchical interactions." Annals of statistics 41(3): 
1111.
Breiman, L. (2001). "Random forests." Machine learning 45(1): 5-32.
Bulik-Sullivan, B. K., et al. (2015). "LD Score regression distinguishes confounding 
from polygenicity in genome-wide association studies." Nature genetics 47(3): 
291-295.
Buniello, A., et al. (2019). "The NHGRI-EBI GWAS Catalog of published genome-wide 
association studies, targeted arrays and summary statistics 2019." Nucleic acids 
research 47(D1): D1005-D1012.
Chattopadhyay, A. and T.-P. Lu (2019). "Gene-gene interaction: the curse of 
dimensionality." Annals of translational medicine 7(24).
Cho, Y., et al. (2004). "Multifactor-dimensionality reduction shows a two-locus 
interaction associated with Type 2 diabetes mellitus." Diabetologia 47(3): 549-554.
Consortium, G. P. (2015). "A global reference for human genetic variation." Nature
526(7571): 68.
Consortium, I. H. G. S. (2001). "Initial sequencing and analysis of the human 
genome." Nature 409(6822): 860-921.
Cooper, H., et al. (2019). The handbook of research synthesis and meta-analysis, 
Russell Sage Foundation.
Cortes, C. and V. Vapnik (1995). "Support-vector networks." Machine learning 20(3): 
273-297.
Fathima, N., et al. (2019). "Association and gene–gene interaction analyses for 
polymorphic variants in CTLA-4 and FOXP3 genes: role in susceptibility to 
autoimmune thyroid disease." Endocrine 64(3): 591-604.
Hindorff, L. A., et al. (2009). "Potential etiologic and functional implications of 
genome-wide association loci for human diseases and traits." Proceedings of the 
National Academy of Sciences 106(23): 9362-9367.
Ioannidis, J. P., et al. (2009). "Validating, augmenting and refining genome-wide 
association signals." Nature Reviews Genetics 10(5): 318-329.
Khalil, H., et al. (2017). "OPRM1 and COMT gene–gene interaction is associated with 
postoperative pain and opioid consumption after orthopedic trauma." Biological 
research for nursing 19(2): 170-179.
Lawrence, R., et al. (2010). "CCRaVAT and QuTie-enabling analysis of rare variants in 
large-scale case control and quantitative trait association studies." BMC 
bioinformatics 11(1): 1-8.
Lewontin, R. C. (1964). "The interaction of selection and linkage. I. General 
considerations; heterotic models." Genetics 49(1): 49.
Madsen, B. E., et al. (2007). "A periodic pattern of SNPs in the human genome." 
Genome research 17(10): 1414-1419.
Marees, A. T., et al. (2018). "A tutorial on conducting genome‐wide association 
studies: Quality control and statistical analysis." International journal of methods in 
psychiatric research 27(2): e1608.
Moore, J. H. and S. M. Williams (2002). "New strategies for identifying gene-gene 
interactions in hypertension." Annals of medicine 34(2): 88-95.
Ni, G., et al. (2018). "Estimation of genetic correlation via linkage disequilibrium 
score regression and genomic restricted maximum likelihood." The American Journal 
of Human Genetics 102(6): 1185-1194.
Purcell, S., et al. (2007). "PLINK: a tool set for whole-genome association and 
population-based linkage analyses." The American Journal of Human Genetics 81(3): 
559-575.
Ritchie, M. D., et al. (2001). "Multifactor-dimensionality reduction reveals high-order 
interactions among estrogen-metabolism genes in sporadic breast cancer." The 
American Journal of Human Genetics 69(1): 138-147.
Sarkar, C., et al. (2018). "Neighbourhood walkability and incidence of hypertension: 
Findings from the study of 429,334 UK Biobank participants." International journal of 
hygiene and environmental health 221(3): 458-468.
Slatkin, M. (2008). "Linkage disequilibrium—understanding the evolutionary past and 
mapping the medical future." Nature Reviews Genetics 9(6): 477-485.
Sudlow, C., et al. (2015). "UK biobank: an open access resource for identifying the 
causes of a wide range of complex diseases of middle and old age." Plos med 12(3): 
e1001779.
Teo, Y.-Y. and X. Sim (2010). "Patterns of linkage disequilibrium in different 
populations: implications and opportunities for lipid-associated loci identified from 
genome-wide association studies." Current opinion in lipidology 21(2): 104-115.
Tibshirani, R. (1996). "Regression shrinkage and selection via the lasso." Journal of 
the Royal Statistical Society: Series B (Methodological) 58(1): 267-288
論文全文使用權限
校內
校內紙本論文延後至2026-08-10公開
同意電子論文全文授權校園內公開
校內電子論文延後至2026-08-10公開
校內書目立即公開
校外
同意授權
校外電子論文延後至2026-08-10公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信