§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2107201110473100
DOI 10.6846/TKU.2011.00772
論文名稱(中文) 比較MB-MDR與SPV方法在辨識顯著多重因子交互作用之表現
論文名稱(英文) Compare the performance of MB-MDR and SPV for identifying the influential multifactor interactions
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 99
學期 2
出版年 100
研究生(中文) 陳致翰
研究生(英文) Jhih-Han Chen
學號 698650222
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2011-05-24
論文頁數 63頁
口試委員 指導教授 - 陳蔓樺(mchen@mail.tku.edu.tw)
委員 - 吳漢銘(hmwu@mail.tku.edu.tw)
委員 - 鄭縉宜(fu3645021@hotmail.com)
關鍵字(中) MB-MDR
SPV
數量性狀基因座(QTL)
關鍵字(英) MB-MDR
SPV
Quantitative Trait Loci
第三語言關鍵字
學科別分類
中文摘要
近年來,隨著基因探索與醫療領域的蓬勃發展,分析大量因子資料成為現代化統計的一項重大挑戰。在分析資料的過程中,我們會想要在多因子的資料下挑選出對於反應變數有顯著影響性的解釋變數,所以善用選擇模型的方法就顯得非常重要。選擇模型的方法發展至今已有許多,而本篇論文研究的是兩個針對反應變數為連續型,解釋變數為類別型的選模方法:MB-MDR與SPV。
在比較這兩個選模方法時,我們利用電腦程式模擬出資料型態為數量性狀基因座(QTL)的基因資料,並分為大量因子與少量因子個數。利用MB-MDR與SPV分析資料後,使用平均準確率與平均錯誤率來評估選模的結果。結果顯示SPV在大樣本之下挑選主效應的平均準確率表現不錯,在小樣本之下較不理想,再者混合(主效應加交互作用)的平均準確率在所有樣本數設定下皆表現不理想,反觀其平均錯誤率皆很低。MB- MDR在所有樣本數設定之下其挑選交互作用的平均準確率都表現不錯,但相對的所有參數設定下其平均錯誤率較高。
根據模擬的結果可知,選用MB-MDR或是SPV可視需求而定,例如想要探討的是模型的主效應或是交互作用,又或者要求是選模方法的高準確率或是低錯誤率,可由使用者自行斟酌後選用。
英文摘要
In recent years, following the gene’s exploration and the development in medical field, analyzing the high dimensional of factors in data is a major challenge to modern statistics. In the process of data analyzing, we would identify the influential multifactor interactions which are significant to the response variable in a multifactor data, so the choice of model selection method is very important. Model selection method has been developed through different approaches so far, and in this paper the authors studied the two model selection methods which are for the response variable to be continuous and the independent variables to be categorical: MB-MDR and SPV.
In comparing the two model selection methods, we use computer programs to simulate two sets of data for the quantitative trait loci (QTL). One set of data contained a large number of factors and the other contained a small number of factors. After analyzed the data with both MB-MDR and SPV methods, we use the average accuracy and average error rate to evaluate the results. The results showed that the SPV performed well in the average accuracy rate when identifying the main effects in the large sample, but did worse when deal with small samples. Furthermore, the results for mixed average accuracy (main effects with interactions) is worse than ideal under all samples settings, however, the average error rates are very low under all situations. The average accuracy rate of interactions based on MB-MDR in all samples setting, are all performed well, but it has higher average error rate under all situations.
According to the simulation results, the selection of MB-MDR or SPV is based on the requirement of the user. For example, the user might be interested in exploring the main effects or interactions effects in a model, or requiring a high accuracy or low error rate, the users can make the choices based on their needs.
第三語言摘要
論文目次
目錄
第一章	緒論	1
第一節	研究動機	1
第二節	研究議題	2
第三節	研究方法	4
第二章	文獻探討	6
第一節	SNPs和疾病的相關分析	6
2.1.1 關聯分析(Association Study)	6
2.1.2 連鎖分析(Linkage Analysis)	8
第二節	基因與基因之間的交互作用分析	12
2.2.1 多因子降維法(Multifactor Dimensionality Reduction)	13
2.2.2 羅吉斯迴歸(logistic regression)	15
2.2.3 分類迴歸樹法(Classification And Regression Trees)	17
第三節	數量性狀基因座(Quantitative Trait Loci)	18
第四節	資料型態	21
2.4.1 使用QTL分析近交系老鼠的血漿HDL膽固醇濃度及動脈硬化易感性	22
2.4.2 酒、香菸及大麻在不同人種與性別下的使用比例	23
2.4.3 鳶尾花品種預測	23
2.4.4原發性膽汁肝硬化	24
第三章	研究方法	25
第一節	迴歸方法	25
3.1.1順向選取法(The Forward Selection Procedure)	25
3.1.2反向淘汰法(The Backward Elimination Procedure)	26
第二節	Model-Based Multifactor Dimensionality Reduction	28
第三節	Stepwise Pairing Down Variation	31
第四章	模擬分析	35
第一節	生成資料	35
第二節	模擬結果	41
第五章	分析實際資料	47
第六章	結論與建議	52
附錄	54
參考文獻	59

表目錄
表格 1  case-control數目關係	7
表格 2  SNP40與SNP252交互作用之下其多點位基因型的分類	14
表格 3  資料型態與適用選模方法	21
表格 4  170個因子數的QTL參數設定	36
表格 5  170個解釋變數的10個上位效應參數設定	36
表格 6  170個解釋變數的20個上位效應參數設定	37
表格 7  46個解釋變數的QTL參數設定	38
表格 8  46個解釋變數的10個上位效應參數設定	39
表格 9  46個解釋變數的20個上位效應參數設定	40
表格 10  SPV的平均準確率	41
表格 11  SPV的平均錯誤率	42
表格 12  MB-MDR的平均準確率	44
表格 13  MB-MDR的平均錯誤率	45
表格 14  Framingham心臟研究變數選取	48
表格 15  Framingham心臟研究變數選取(續)	49
表格 16  Framingham心臟研究在SPV與MB-MDR的分析結果	49
表格 17  Framingham心臟研究在SPV與MB-MDR的分析結果(續)	50
表格 18  高中生喝酒、吸菸、吸大麻按照性別與種族之分類	54
表格 19  鳶尾花資料	55
表格 20  PBC資料	56
表格 21  PBC資料	56
表格 22  PBC變數名稱	57
圖目錄
圖 1 基因輿圖	11
參考文獻
參考文獻
1.	A. Agresti. (2000). Categorical data analysis (4th ed.) Wiley Online Library. 
2.	B. Devlin and N. Risch. (1995). A comparison of linkage disequilibrium measures for fine-scale mapping. Genomics, 29(2), 311-322. 
3.	B. Freidlin, G. Zheng, Z. Li and J. L. Gastwirthb. (2002). Trend tests for case-control studies of genetic markers: Power, sample size and robustness. Hum Hered, 53, 146-152. 
4.	B. S. Yandell, J. Y. Moon, S. Banerjee, W. W. Neely and N. Yi. (2009). QTL analysis using bayesian interval mapping. 
5.	C. H. Kao and Z. B. Zeng. (2002). Modeling epistasis of quantitative trait loci using cockerham's model Genetics Soc America. 
6.	C. S. Coffey, P. R. Hebert, M. D. Ritchie, H. M. Krumholz, J. M. Gaziano, P. M. Ridker, N. J. Brown, D. E. Vaughan and J. H. Moore. (2004). An application of conditional logistic regression and multifactor dimensionality reduction for detecting gene-gene interactions on risk of myocardial infarction: The importance of model validation. BMC Bioinformatics, 5, 49. doi:10.1186/1471-2105-5-49 
7.	E. S. Lander. (1996). The new genomics: Global views of biology American Association for the Advancement of Science. 
8.	Greg Gibson and Spencer. V. Muse. (2003). 基因體科學入門 (曾銘仁,阮雪芬,李宗憲,吳家欽,陳韻如 Trans.)。(1st ed.) 藝軒圖書出版社。 
9.	J. M. Mahachie John, H. Baurecht, E. Rodríguez, A. Naumann, S. Wagenpfeil, N. Klopp, M. Mempel, N. Novak, T. Bieber and H. E. Wichmann. (2010). Analysis of the high affinity IgE receptor genes reveals epistatic effects of FCER1A variants on eczema risk Wiley Online Library. 
10.	J. O. Rawlings, S. G. Pantula and D. A. Dickey. (1998). Applied regression analysis : A reseacher tool (2nd ed.). New York: Springer Verlag. 
11.	K. W. Broman and Ś. Sen. (2009). A guide to QTL mapping with R/qtl Sprin-ger Verlag. 
12.	L. B. Jorde. (2000). Linkage disequilibrium and the search for complex dis-ease genes Cold Spring Harbor Lab. 
13.	W. Y. Loh. (2005). Classification and regression trees 
14.	M. D. Ritchie, L. W. Hahn and J. H. Moore. (2003). Power of multifactor di-mensionality reduction for detecting gene‐gene interactions in the presence of genotyping error, missing data, phenocopy, and genetic heterogeneity. Genetic Epidemiology, 24(2), 150-157. 
15.	M. D. Ritchie, L. W. Hahn, N. Roodi, L. R. Bailey, W. D. Dupont, F. F. Parl and J. H. Moore. (2001). Multifactor-dimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer. The American Journal of Human Genetics, 69(1), 138-147. 
16.	M. D. Ritchie, L. W. Hahn, N. Roodi, L. R. Bailey, W. D. Dupont, F. F. Parl and J. H. Moore. (2001). Multifactor-dimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer. The American Journal of Human Genetics, 69(1), 138-147. 
17.	M. L. Calle, V. Urrea, N. Malats and K. V. Steen. (2010). Mbmdr: An R package for exploring gene–gene interactions associated with binary or quantitative traits. Bioinformatics, 26(17), 2198. 
18.	M. L. Calle, V. Urrea, N. Malats and K. Van Steen. (2008). MB-MDR: Mod-el-based multifactor dimensionality reduction for detecting interactions in high-dimensional genomic data. Vic: University of Vic, 
19.	M. T. Tsuang and M. Tohen. (1995). Textbook in psychiatric epidemiology Wiley Online Library. 
20.	M. Yuan and Y. Lin. (2006). Model selection and estimation in regression with grouped variables. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 68(1), 49-67. 
21.	Morton, N. E. (1998). Significance levels in complex inheritance. The Ameri-can Journal of Human Genetics, 62(3), 690-697. 
22.	N. Chatterjee, Z. Kalaylioglu, R. Moslehi, U. Peters and S. Wacholder. (2006). Powerful multilocus tests of genetic association in the presence of gene-gene and gene-environment interactions. The American Journal of Human Genetics, 79(6), 1002-1016. 
23.	N. Ishimori, R. Li, P. M. Kelmenson, R. Korstanje, K. A. Walsh, G. A. Churchill, K. Forsman-Semb and B. Paigen. (2004). Quantitative trait loci analysis for plasma HDL-cholesterol concentrations and atherosclerosis susceptibility between inbred mouse strains C57BL/6J and 129S1/SvImJ. Arteriosclerosis, Thrombosis, and Vascular Biology, 24(1), 161. 
24.	P. J. Talmud. (2007). Gene-environment interaction and its impact on coro-nary heart disease risk. Nutrition, Metabolism and Cardiovascular Diseases, 17(2), 148-152. 
25.	R. A. Fisher. (1936). The use of multiple measurements in taxonomic prob-lems Wiley Online Library. 
26.	R. C. Lewontin and K. Kojima. (1960). The evolutionary dynamics of complex polymorphisms. Evolution, 14(4), 458-472. 
27.	R. R. Hudson. (2001). Linkage disequilibrium and recombination Wiley On-line Library. 
28.	吳淑惠,蕭朱杏(2004)。 利用變異數組成模式對數量性狀基因座的貝氏統計推論。臺灣公共衛生雜誌,23(5),355-364。 
29.	大石正道(2002)。 圖解基因組的構造 (林碧清 Trans.)。台北縣:世茂出版社。
30.	林建甫(2008)。存活分析 台北市:雙葉書廊,5。
31.	王雅莉(2007)。使用效度與信度來比較艾菲爾微陣列基因晶片的預處理方法與表現量差異方法的組合。(碩士, 國立交通大學統計學研究所)。
32.	葉家僖,黃耀庭(2009)。單核苷酸多型性之簡介與研究回顧。生物醫學,2(2)。
33.	蘇楹媛(2007)。發展基因相關研究之整合系統。(碩士, 國立陽明大學生命科學院生物資訊研究所)。
34.	鄭榕鈺,曾信嘉(2007)。定位數量性狀基因座的秩迴歸方法。作物,環境與生物資訊,4(2),109-118。
35.	高振宏(2006)。知識天地-淺談有關基因定位的統計方法。中央研究院週報,(1061)。
36.	黃景祥(2010)。Stepwise pairing down variation. http://www.stat.sinica.edu.tw/jshwang/spv.htm
論文全文使用權限
校內
紙本論文於授權書繳交後5年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後5年公開
校外
同意授權
校外電子論文於授權書繳交後5年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信