系統識別號 | U0002-2107201110473100 |
---|---|
DOI | 10.6846/TKU.2011.00772 |
論文名稱(中文) | 比較MB-MDR與SPV方法在辨識顯著多重因子交互作用之表現 |
論文名稱(英文) | Compare the performance of MB-MDR and SPV for identifying the influential multifactor interactions |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 99 |
學期 | 2 |
出版年 | 100 |
研究生(中文) | 陳致翰 |
研究生(英文) | Jhih-Han Chen |
學號 | 698650222 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2011-05-24 |
論文頁數 | 63頁 |
口試委員 |
指導教授
-
陳蔓樺(mchen@mail.tku.edu.tw)
委員 - 吳漢銘(hmwu@mail.tku.edu.tw) 委員 - 鄭縉宜(fu3645021@hotmail.com) |
關鍵字(中) |
MB-MDR SPV 數量性狀基因座(QTL) |
關鍵字(英) |
MB-MDR SPV Quantitative Trait Loci |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
近年來,隨著基因探索與醫療領域的蓬勃發展,分析大量因子資料成為現代化統計的一項重大挑戰。在分析資料的過程中,我們會想要在多因子的資料下挑選出對於反應變數有顯著影響性的解釋變數,所以善用選擇模型的方法就顯得非常重要。選擇模型的方法發展至今已有許多,而本篇論文研究的是兩個針對反應變數為連續型,解釋變數為類別型的選模方法:MB-MDR與SPV。 在比較這兩個選模方法時,我們利用電腦程式模擬出資料型態為數量性狀基因座(QTL)的基因資料,並分為大量因子與少量因子個數。利用MB-MDR與SPV分析資料後,使用平均準確率與平均錯誤率來評估選模的結果。結果顯示SPV在大樣本之下挑選主效應的平均準確率表現不錯,在小樣本之下較不理想,再者混合(主效應加交互作用)的平均準確率在所有樣本數設定下皆表現不理想,反觀其平均錯誤率皆很低。MB- MDR在所有樣本數設定之下其挑選交互作用的平均準確率都表現不錯,但相對的所有參數設定下其平均錯誤率較高。 根據模擬的結果可知,選用MB-MDR或是SPV可視需求而定,例如想要探討的是模型的主效應或是交互作用,又或者要求是選模方法的高準確率或是低錯誤率,可由使用者自行斟酌後選用。 |
英文摘要 |
In recent years, following the gene’s exploration and the development in medical field, analyzing the high dimensional of factors in data is a major challenge to modern statistics. In the process of data analyzing, we would identify the influential multifactor interactions which are significant to the response variable in a multifactor data, so the choice of model selection method is very important. Model selection method has been developed through different approaches so far, and in this paper the authors studied the two model selection methods which are for the response variable to be continuous and the independent variables to be categorical: MB-MDR and SPV. In comparing the two model selection methods, we use computer programs to simulate two sets of data for the quantitative trait loci (QTL). One set of data contained a large number of factors and the other contained a small number of factors. After analyzed the data with both MB-MDR and SPV methods, we use the average accuracy and average error rate to evaluate the results. The results showed that the SPV performed well in the average accuracy rate when identifying the main effects in the large sample, but did worse when deal with small samples. Furthermore, the results for mixed average accuracy (main effects with interactions) is worse than ideal under all samples settings, however, the average error rates are very low under all situations. The average accuracy rate of interactions based on MB-MDR in all samples setting, are all performed well, but it has higher average error rate under all situations. According to the simulation results, the selection of MB-MDR or SPV is based on the requirement of the user. For example, the user might be interested in exploring the main effects or interactions effects in a model, or requiring a high accuracy or low error rate, the users can make the choices based on their needs. |
第三語言摘要 | |
論文目次 |
目錄 第一章 緒論 1 第一節 研究動機 1 第二節 研究議題 2 第三節 研究方法 4 第二章 文獻探討 6 第一節 SNPs和疾病的相關分析 6 2.1.1 關聯分析(Association Study) 6 2.1.2 連鎖分析(Linkage Analysis) 8 第二節 基因與基因之間的交互作用分析 12 2.2.1 多因子降維法(Multifactor Dimensionality Reduction) 13 2.2.2 羅吉斯迴歸(logistic regression) 15 2.2.3 分類迴歸樹法(Classification And Regression Trees) 17 第三節 數量性狀基因座(Quantitative Trait Loci) 18 第四節 資料型態 21 2.4.1 使用QTL分析近交系老鼠的血漿HDL膽固醇濃度及動脈硬化易感性 22 2.4.2 酒、香菸及大麻在不同人種與性別下的使用比例 23 2.4.3 鳶尾花品種預測 23 2.4.4原發性膽汁肝硬化 24 第三章 研究方法 25 第一節 迴歸方法 25 3.1.1順向選取法(The Forward Selection Procedure) 25 3.1.2反向淘汰法(The Backward Elimination Procedure) 26 第二節 Model-Based Multifactor Dimensionality Reduction 28 第三節 Stepwise Pairing Down Variation 31 第四章 模擬分析 35 第一節 生成資料 35 第二節 模擬結果 41 第五章 分析實際資料 47 第六章 結論與建議 52 附錄 54 參考文獻 59 表目錄 表格 1 case-control數目關係 7 表格 2 SNP40與SNP252交互作用之下其多點位基因型的分類 14 表格 3 資料型態與適用選模方法 21 表格 4 170個因子數的QTL參數設定 36 表格 5 170個解釋變數的10個上位效應參數設定 36 表格 6 170個解釋變數的20個上位效應參數設定 37 表格 7 46個解釋變數的QTL參數設定 38 表格 8 46個解釋變數的10個上位效應參數設定 39 表格 9 46個解釋變數的20個上位效應參數設定 40 表格 10 SPV的平均準確率 41 表格 11 SPV的平均錯誤率 42 表格 12 MB-MDR的平均準確率 44 表格 13 MB-MDR的平均錯誤率 45 表格 14 Framingham心臟研究變數選取 48 表格 15 Framingham心臟研究變數選取(續) 49 表格 16 Framingham心臟研究在SPV與MB-MDR的分析結果 49 表格 17 Framingham心臟研究在SPV與MB-MDR的分析結果(續) 50 表格 18 高中生喝酒、吸菸、吸大麻按照性別與種族之分類 54 表格 19 鳶尾花資料 55 表格 20 PBC資料 56 表格 21 PBC資料 56 表格 22 PBC變數名稱 57 圖目錄 圖 1 基因輿圖 11 |
參考文獻 |
參考文獻 1. A. Agresti. (2000). Categorical data analysis (4th ed.) Wiley Online Library. 2. B. Devlin and N. Risch. (1995). A comparison of linkage disequilibrium measures for fine-scale mapping. Genomics, 29(2), 311-322. 3. B. Freidlin, G. Zheng, Z. Li and J. L. Gastwirthb. (2002). Trend tests for case-control studies of genetic markers: Power, sample size and robustness. Hum Hered, 53, 146-152. 4. B. S. Yandell, J. Y. Moon, S. Banerjee, W. W. Neely and N. Yi. (2009). QTL analysis using bayesian interval mapping. 5. C. H. Kao and Z. B. Zeng. (2002). Modeling epistasis of quantitative trait loci using cockerham's model Genetics Soc America. 6. C. S. Coffey, P. R. Hebert, M. D. Ritchie, H. M. Krumholz, J. M. Gaziano, P. M. Ridker, N. J. Brown, D. E. Vaughan and J. H. Moore. (2004). An application of conditional logistic regression and multifactor dimensionality reduction for detecting gene-gene interactions on risk of myocardial infarction: The importance of model validation. BMC Bioinformatics, 5, 49. doi:10.1186/1471-2105-5-49 7. E. S. Lander. (1996). The new genomics: Global views of biology American Association for the Advancement of Science. 8. Greg Gibson and Spencer. V. Muse. (2003). 基因體科學入門 (曾銘仁,阮雪芬,李宗憲,吳家欽,陳韻如 Trans.)。(1st ed.) 藝軒圖書出版社。 9. J. M. Mahachie John, H. Baurecht, E. Rodríguez, A. Naumann, S. Wagenpfeil, N. Klopp, M. Mempel, N. Novak, T. Bieber and H. E. Wichmann. (2010). Analysis of the high affinity IgE receptor genes reveals epistatic effects of FCER1A variants on eczema risk Wiley Online Library. 10. J. O. Rawlings, S. G. Pantula and D. A. Dickey. (1998). Applied regression analysis : A reseacher tool (2nd ed.). New York: Springer Verlag. 11. K. W. Broman and Ś. Sen. (2009). A guide to QTL mapping with R/qtl Sprin-ger Verlag. 12. L. B. Jorde. (2000). Linkage disequilibrium and the search for complex dis-ease genes Cold Spring Harbor Lab. 13. W. Y. Loh. (2005). Classification and regression trees 14. M. D. Ritchie, L. W. Hahn and J. H. Moore. (2003). Power of multifactor di-mensionality reduction for detecting gene‐gene interactions in the presence of genotyping error, missing data, phenocopy, and genetic heterogeneity. Genetic Epidemiology, 24(2), 150-157. 15. M. D. Ritchie, L. W. Hahn, N. Roodi, L. R. Bailey, W. D. Dupont, F. F. Parl and J. H. Moore. (2001). Multifactor-dimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer. The American Journal of Human Genetics, 69(1), 138-147. 16. M. D. Ritchie, L. W. Hahn, N. Roodi, L. R. Bailey, W. D. Dupont, F. F. Parl and J. H. Moore. (2001). Multifactor-dimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer. The American Journal of Human Genetics, 69(1), 138-147. 17. M. L. Calle, V. Urrea, N. Malats and K. V. Steen. (2010). Mbmdr: An R package for exploring gene–gene interactions associated with binary or quantitative traits. Bioinformatics, 26(17), 2198. 18. M. L. Calle, V. Urrea, N. Malats and K. Van Steen. (2008). MB-MDR: Mod-el-based multifactor dimensionality reduction for detecting interactions in high-dimensional genomic data. Vic: University of Vic, 19. M. T. Tsuang and M. Tohen. (1995). Textbook in psychiatric epidemiology Wiley Online Library. 20. M. Yuan and Y. Lin. (2006). Model selection and estimation in regression with grouped variables. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 68(1), 49-67. 21. Morton, N. E. (1998). Significance levels in complex inheritance. The Ameri-can Journal of Human Genetics, 62(3), 690-697. 22. N. Chatterjee, Z. Kalaylioglu, R. Moslehi, U. Peters and S. Wacholder. (2006). Powerful multilocus tests of genetic association in the presence of gene-gene and gene-environment interactions. The American Journal of Human Genetics, 79(6), 1002-1016. 23. N. Ishimori, R. Li, P. M. Kelmenson, R. Korstanje, K. A. Walsh, G. A. Churchill, K. Forsman-Semb and B. Paigen. (2004). Quantitative trait loci analysis for plasma HDL-cholesterol concentrations and atherosclerosis susceptibility between inbred mouse strains C57BL/6J and 129S1/SvImJ. Arteriosclerosis, Thrombosis, and Vascular Biology, 24(1), 161. 24. P. J. Talmud. (2007). Gene-environment interaction and its impact on coro-nary heart disease risk. Nutrition, Metabolism and Cardiovascular Diseases, 17(2), 148-152. 25. R. A. Fisher. (1936). The use of multiple measurements in taxonomic prob-lems Wiley Online Library. 26. R. C. Lewontin and K. Kojima. (1960). The evolutionary dynamics of complex polymorphisms. Evolution, 14(4), 458-472. 27. R. R. Hudson. (2001). Linkage disequilibrium and recombination Wiley On-line Library. 28. 吳淑惠,蕭朱杏(2004)。 利用變異數組成模式對數量性狀基因座的貝氏統計推論。臺灣公共衛生雜誌,23(5),355-364。 29. 大石正道(2002)。 圖解基因組的構造 (林碧清 Trans.)。台北縣:世茂出版社。 30. 林建甫(2008)。存活分析 台北市:雙葉書廊,5。 31. 王雅莉(2007)。使用效度與信度來比較艾菲爾微陣列基因晶片的預處理方法與表現量差異方法的組合。(碩士, 國立交通大學統計學研究所)。 32. 葉家僖,黃耀庭(2009)。單核苷酸多型性之簡介與研究回顧。生物醫學,2(2)。 33. 蘇楹媛(2007)。發展基因相關研究之整合系統。(碩士, 國立陽明大學生命科學院生物資訊研究所)。 34. 鄭榕鈺,曾信嘉(2007)。定位數量性狀基因座的秩迴歸方法。作物,環境與生物資訊,4(2),109-118。 35. 高振宏(2006)。知識天地-淺談有關基因定位的統計方法。中央研究院週報,(1061)。 36. 黃景祥(2010)。Stepwise pairing down variation. http://www.stat.sinica.edu.tw/jshwang/spv.htm |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信