淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-0707201011550200
中文論文名稱 結合生物知識的橢圓排序導引階層分群樹於基因微陣列資料的群集分析
英文論文名稱 Incorporating Biological Knowledge into Hierarchical Clustering Tree into Rank-Two Ellipse Seriation in Gene Expression Profiles
校院名稱 淡江大學
系所名稱(中) 數學學系碩士班
系所名稱(英) Department of Mathematics
學年度 98
學期 2
出版年 99
研究生中文姓名 曹鈞富
研究生英文姓名 Chun-Fu Taso
學號 696190213
學位類別 碩士
語文別 中文
口試日期 2010-06-25
論文頁數 31頁
口試委員 指導教授-吳漢銘
委員-陳君厚
委員-李百靈
中文關鍵字 生物驗證指標  群集分析  基因表現資料分析  生物知識為基礎的群集分析  重新排序 
英文關鍵字 Biological validity indices  Clustering  Gene expression data analysis  Knowledge-based clustering  Reordering 
學科別分類 學科別自然科學數學
中文摘要 橢圓排序導引階層分群樹(HCT-R2E)應用在基因表現資料的矩陣視覺
化及群集分析上,是一種很有效的方法。它可以同時對基因表現資料提供較一致的局部群集和較佳的全域群組狀態。然而和傳統的數理式的群集分析一樣,橢圓排序導引階層分群樹方法僅利用到基因微陣列表現資料卻未考慮到把這些已知基因功能的屬性結合到分群演算裡。在本研究中,我們結合微陣列資料之基因所代表的生物知識,計算一個新的距離尺度,當作橢圓排序導引階層分群樹法使用的距離尺度。新的距離尺度的採用可以同時獲得群集後基因表現的相似性與基因功能屬性的同一性。以結合生物知識為基礎的橢圓排序導引階層分群樹法應用在酵母菌細胞週期和老鼠腦細胞這兩種微陣列資料,我們發現結果不僅保存原本橢圓排序導引階層分群樹法所具有的分群排序性質,也同時提供更相關及有意義的生物註解資訊去幫助識別基因的功
能屬性。
英文摘要 The hierarchical clustering tree (HCT) guided by a rank-two ellipse seriation (R2E) is an effective method to identify coherent local clusters and better global grouping patterns simultaneously in gene expression profiles. Like most other mathematical clustering methods, the HCT-R2E conducted only on the statistical characteristics of gene expression data while the known gene functions was not considered in the clustering process. In this study, we incorporate these information to create a new distance metric for HCT-R2E. The new distance metric captures both expression pattern similarities and biological function agreements. With cases studies on the microarray data of the yeast cell-cycle and mouse mesencephalon data. we shown the biological knowledge-based HCT-R2E not only preserves the desirable properties of
its own its own but also identifies genes that are more relevant and meaningful to biological annotations.
論文目次 1 導論....................................................1
2 基因表現資料的矩陣視覺化................................2
2.1 酵母菌細胞週期的微陣列資料..........................2
2.2 矩陣視覺化的基本步驟................................3
3 分群法及排序法..........................................4
3.1 階層分群樹(HCT).....................................4
3.2 橢圓排序法(R2E).....................................6
3.3 橢圓排序導引階層分群樹法(HCT-R2E)...................6
4 以生物知識為基礎的橢圓排序導引階層分群樹法7
5 分群排序成效驗証指標....................................9
5.1 廣義-逆-羅賓森指標(GAR).............................9
5.2 相對廣義-逆-羅賓森指標(RGAR).......................10
5.3 配對分數(Match Score)..............................11
6 例子...................................................13
6.1 單一功能屬性: 酵母菌細胞週期之微陣列資料...........13
6.2 多重功能屬性: 老鼠中腦細胞的微陣列資料.............15
7 結論與討論.............................................16

參考書目.................................................19

表目錄
1 利用結合三種不同比重的生物知識與HCT-R2E 的配對分
數表。...................................................14

圖目錄
1 酵母菌細胞週期微陣列資料的生物知識:細胞週期的五個表
現階段, 分別為: Early Pre-Synthetic Gap(Early G1; 21),
Late Pre-Synthetic Gap(Late G2; 47), DNA Synthesis(
S; 26), Post Synthetic Gap(G2; 26), Mitosis(M; 25)。
此五種表現階段有固定的順序週期性。.......................21
2 酵母菌細胞週期微陣列資料經由(a) HCT; (b)R2E; (c)HCTR2E
的排序結果。.............................................22
3 (a) 使用隨機排序的酵母菌細胞週期微陣列資料, 基因表現
視覺圖看不出紅色表現結構,相關距離矩陣視覺圖呈現散亂
的結果, 辨識不出群集的關係; (b) 按照週期順序性排序的
酵母菌細胞週期微陣列資料, 基因表現視覺圖看出明顯的兩
條紅色結構,相關距離矩陣視覺圖可以辨識出較佳的群集關
係。.....................................................23
4 HCT的翻轉樹機制, 透過節點可以任意翻轉子樹, 不會改變
樹的結構但可改變資料排序, 幫助找到更理想的排序。.........24
5 基因對基因相關距離矩陣若符合單調的變化,會較接近Robinson
形式。...................................................24
6 利用可調控大小的視窗範圍(window sizes) 來加總計算局
部範圍到全域範圍的anti-Robinson 當做GAR。................24
7 應用在多功能屬性資料型態的結合鄰近距離概念之配對分
數指標: (a) 理想的排序結果, 相近功能屬性基因排序在一
起; (b) 不理想的排序結果, 相近功能屬性基因沒有排序在
一起。...................................................25

8 酵母菌細胞週期微陣列資料在結合不同比重生物知識與HCTR2E
的比較圖。(a) 沒結合生物知識和以0.1比重結合生物
知識的比較圖; (b) 沒結合生物知識和以0.3比重結合生物
知識的比較圖; (c)0.1比重和0.3比重結合生物知識的比較圖。..26
9 酵母菌細胞週期微陣列資料將HCT-R2E 和其它六種分群
排序方法以不同比重結合生物知識後, 呈現GAR 的比較
結果。(a) 七種方法沒結合生物知識; (b) 以0.1比重結合生
物知識與七種方法; (c) 以0.3比重結合生物知識與七種方法。..27
10 酵母菌細胞週期微陣列資料將HCT-R2E 和其它六種分群
排序方法以不同比重結合生物知識後, 呈現RGAR 的比較
結果。(a) 七種方法沒結合生物知識; (b) 以0.1比重結合生
物知識與七種方法; (c) 以0.3比重結合生物知識與七種方法。..28
11 酵母菌細胞週期微陣列資料用不同比重結合生物知識與HCTR2E
的配對分數視覺圖, 內圈是HCT-R2E 的排序結果,
外圈是細胞週期的週期順序性。(a) 沒有結合比重; (b) 以
0.1比重結合生物知識; (c) 以0.3比重結合生物知識。.........29
12 多功能屬性類型的老鼠腦細胞微陣列資料在結合不同比重
生物知識與HCT-R2E 的視覺比較圖, 利用灰-黑色譜表示
功能屬性的有無。(a) 沒結合生物知識和以0.1比重結合生
物知識的比較圖; (b) 沒結合生物知識和以0.2比重結合生
物知識的比較圖; (c) 沒結合生物知識和以0.3比重結合生
物知識的比較圖。.........................................30
13 老鼠中腦細胞微陣列資料利用HCT-R2E, R2R, HCT在結
合不同比重生物知識的多功能屬性配對分數指標。(a) 沒結
合生物知識; (b) 以0.1比重結合生物知識; (c) 以0.2比重
結合生物知識; (d) 以0.3比重結合生物知識。................31
參考文獻 Bhattacherjee, V., Mukhopadhyay, P., Singh, S., Johnson, C., Philipose,JT., Warner, CP., Greene, RM., Pisano, MM., 2007. Neural crest and mesoderm lineage-dependent gene expression in orofacial development. Differentiation, 75
(5), 463-477.

Chu, S., DeRisi, J., Eisen, M., Mulholland, J., Botstein, D., Brown, P.O., Herskowitz, I., 1998. The transcriptional program of sporulation in budding yeast. Science, 282, 699-705.

Chen, C.H., 2002. Generalized association plots for information visualization: The applications of the convergence of iteratively formed correlation matrices. Statistica Sinica, 12:1-23.

Eisen, M.B., Spellman, P.T., Brown, P.O., Botstein, D., 1998. Cluster analysis and display of genome-wide expression patterns. PNAS, 95:14863-14868.

Fang, Z., Yang, J., Li, Y., Qingming., Luo., Liu, L., 2006. Knowledge guided analysis of microarray data. Journal of Biomedical Informatics, 39(4), 401 - 411.

Grzegorz, M.B., Member, IEEE., Susmita, D., Somnath, D., 2006. Biologically supervised hierarchical clustering algorithms for gene expression data. Conf Proc IEEE Eng Med Bio Soc, 5515-5518.

Grzegorz, M.B., Susmita, D., Somnath, D., 2007. Incorporation of biological knowledge into distance for clustering genes. Bioinformation, 1(10), 396-405.

Guy, B., Vasyl, P., Susmita, D., Somnath, D., 2008. clValid: An R package for Cluster Validation. Journal of Statistical Software, 25(4).

Huang, D; Pan, W., 2008. Incorporating biological knowledge into distance-based clustering analysis of microarray gene expression data. Bioinformatics, 22(10), 1259-1268.

Michael, H., Kurt, H., Christian, B., 2008. Getting things in order: an introduction to the R package seriation. Journal of Statistical Software, 25(3).

Pan,W., 2006. Incorporating gene functions as priors in model-based clustering of microarray gene expression data. Bioinformatics, 22, 795-801.

Susmita, D., Somnath, D., 2003. Comparisons and validation of statistical clustering techniques for microarray gene expression data. Bioinformatics, 19, 459-266.

Tien, Y.J., Lee, Y.S., Wu, H.M., Chen, C.H., 2008. Methods for simultaneously identifying coherent local clusters with smooth global patterns in gene expression profiles. BMC Bioinformatics, 9:155.

Ziv, B.J., David, K, Gifford., Tommi, S., Jaakkola., 2001. Fast optimal leaf ordering for hierarchical clustering. Bioinformatics,17, S22-S29.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2011-07-22公開。
  • 同意授權瀏覽/列印電子全文服務,於2011-07-22起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信