淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-0707201017293300
中文論文名稱 文件資料集類別一致性分析工具之實作
英文論文名稱 Implementation of an Analysis Tool for Class Consistency Check on Document Datasets
校院名稱 淡江大學
系所名稱(中) 資訊管理學系碩士班
系所名稱(英) Department of Information Management
學年度 98
學期 2
出版年 99
研究生中文姓名 蕭凱元
研究生英文姓名 Kai-Yuan Hsiao
學號 697630894
學位類別 碩士
語文別 中文
口試日期 2010-05-29
論文頁數 55頁
口試委員 指導教授-魏世杰
委員-壽大衛
委員-楊欣哲
委員-張應華
中文關鍵字 nMRD  FastMap  SOM  Weka  CIRB030  分群假說  類別一致性 
英文關鍵字 nMRD  FastMap  SOM  Weka  CIRB030  cluster hypothesis  class consistency 
學科別分類 學科別社會科學管理學
學科別社會科學資訊科學
中文摘要 隨著資訊的超載,要如何從龐大的資料中找到所需的資訊遂變成重要的課題。資訊檢索與文件自動分類就是為了幫助使用者找到想要資訊的常用技術。由於評估檢索及分類結果常需依賴答案集,因此答案集本身的類別一致性好壞,往往會影響評估品質;另外,如果答案集正確性無疑慮,則檢索或分類後,適當檢視人工與機器答案的類別一致性,往往能協助診斷機器判別錯誤原因,所以提供資料集類別一致性的分析工具是有必要的。
為因應上述需求,本文提出一套分析工具,使用了兩種指標自動評估答案集一致性。一種是相似度間距,透過答案集相關文章與非相關文章的相似度間距,來分析相關文章與非相關文章是否明顯分離。另一種則是使用平均距離倒數(Normalized Mean Reciprocal Distance,nMRD),來評估相關文章緊密程度。於評估後,針對一致性較差的答案集,透過FastMap空間分佈圖與字詞篩選,以人工方式診斷不一致所在,並利用前十大字詞與自我組織映射網路(Self-Organizing Map,SOM),來分析症狀群特性。本工具同時結合了目前在資料探勘領域已經相當成熟的機器學習軟體Weka,透過其豐富的分類演算法學習後,能針對分類後的結果不一致處,協助診斷分類錯誤文章的特性。
展示部分採用中文標準新聞文件集CIRB030人工評估好的答案集為範例。經由斷詞、向量化後,於機器學習前,針對答案集本身,提供指標評估方式,找出一致性較差的問題集,讓使用者利用不同的3D角度挑選離群文章,探索不一致所在。另外,於透過Weka提供的分類器學習後,比較人工與機器評估結果的差異,以進一步了解分類錯誤文章,協助找出原因及對策。
英文摘要 With the ever increasing information overload, it has become harder for one to find the desired information from the huge body of information. Information retrieval and classification have come on the scene to help users find the information. To evaluate the retrieval or classification performances, reliance on an answer set is inevitable. Thus how to ensure the class consistency of an answer set will determine the quality of the evaluation. In addition, seeing the class inconsistency between the retrieval/classification results and the answer set, it is often illuminating to be able to explore the dataset to identify the error patterns in the result. Therefore a good tool for analysis of class consistency in datasets is in need.
An analysis tool is proposed in this work to accommodate the above needs. Two indices are adopted to evaluate the class consistency of an answer set. One is the similarity gap index which computes the gap between the peaks of relevant-relevant and relevant-nonrelevant similarity distributions. A larger gap denotes better separation between relevant and nonrelevant documents. The other is the normalized mean reciprocal distance (nMRD) index which measures the compactness of relevant documents. A larger nMRD denotes better tightness of relevant documents. Through these two indices, low class consistency answer sets can be identified. Then these answer sets can be examined by FastMap for 3D projection or directly by word filtering to find the culprit documents causing the inconsistency. Lastly, by the top 10 common words or self-organizing map (SOM) tools, one can summarize the characteristics of the culprit documents. To facilitate use with various classifiers, this analysis tool has combined with Weka, a well-known open source machine learning package. The user can explore the class inconsistency between the classification result and the answer set to diagnose the error patterns in the result.
For demonstration, a standard Chinese news dataset CIRB030 is used. The Chinese dataset is first segmented into words and represented as document vectors. The dataset is evaluated by the similarity gap and the nMRD indices to identify a low class consistency answer set. Then the answer set is examined by 3D FastMap to locate the outlier documents causing the inconsistency. A high class consistency answer set is also used for classification test. After using a classifier in Weka, the user can explore the class inconsistency between the classification result and the answer set. The tool can help analyze the characteristics of the misclassified documents.
論文目次 目錄
第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 研究架構 3
第二章 文獻探討 4
2.1 機器學習軟體weka 4
2.2 中文斷詞 4
2.3 文件向量化 5
2.4 類別一致性分析 7
2.4.1 相似度間距 7
2.4.2 平均距離倒數 8
2.5 文件視覺化 10
2.5.1 Self-Organizing Map 12
2.5.2 FastMap 16
第三章 系統架構 19
3.1 系統架構流程 19
3.2 系統流程 20
3.2.1 製作arff檔 20
3.2.2 文件集的前處理 20
3.2.3 學習前答案集類別一致性分析 21
3.2.4 分類學習 24
3.2.5 比較學習後人工與機器答案不一致性所在 25
第四章 系統實作與展示 26
4.1 資料集 26
4.2 系統前處理 27
4.3 學習前答案集類別一致性分析 30
4.3.1 指標評估 30
4.3.2 人工診斷類別不一致性所在 37
4.4 機器學習分類 42
4.5 比較學習後人工與機器答案不一致性所在 44
4.6 討論 49
4.7 效能 50
4.8 三維投影方法比較 51
第五章 結論 52
參考文獻 54

圖目錄
圖2- 1、假設存在的文件集X、Y 8
圖2- 2、距離排名權重取代相似度 9
圖2- 3、兩topic的相關文章緊密程度 10
圖2- 4、自我組織映射圖網路架構 13
圖2- 5、自我組織映射圖網路鄰近區域概念 14
圖2- 6、利用餘旋定理投射到OaOb上 17
圖2- 7、投射到與OaOb垂直的平面H上 18
圖3- 1、系統架構圖 19
圖4- 1、選取arff資料格式檔 27
圖4- 2、斷詞完文章 28
圖4- 3、3種向量化參數選擇 29
圖4- 4、文章字詞權重 29
圖4- 5、計算相似度間距 30
圖4- 6、相似度分佈圖 32
圖4- 7、高達三顆星之顯著差異 33
圖4- 8、平均距離倒數 34
圖4- 9、類別選擇與字詞篩選 38
圖4- 10、篩選評估為相關的文章 39
圖4- 11、前十大字詞 39
圖4- 12、SOM主題式呈現 40
圖4- 13、離群文章 41
圖4- 14、離群文章的的字詞向量化 41
圖4- 15、篩選後10篇不相關文章 42
圖4- 16、使用機器學習J48分類以交叉驗證法之結果 43
圖4- 17、機器評估為不相關之文章 45
圖4- 18、前十大字詞 46
圖4- 19、SOM主題式呈現 46
圖4- 20、SOM神經元內的文章與特性 47
圖4- 21、診斷症狀群特性 48
圖4- 22、FN分類錯誤文章 48
圖4- 23、PCA 與FastMap投影比較圖 51

表目錄
表3- 1、arff格式檔 20
表3- 2、文件向量化參數組合 21
表3- 3、計算每個神經元最具代表性的主題 24
表3- 4、人工評估與機器評估對應表 25
表4- 1、CIRB030答案集相關層級表 26
表4- 2、CIRB030中42個問題集之相似度間距 30
表4- 3、顯著水準等級 33
表4- 4、CIRB030中42個問題集之nMRD值 34
表4- 5、綜合兩種指標後重新排名 35
表4- 6、問題集36評估依據 37
表4- 7、問題集8之評估依據 44
表4- 8、人工評估與機器評估對應表 45
表4- 9、本分析工具各模組之使用時機 49


參考文獻 參考文獻
[1] 中央研究院中文詞知識庫小組,CIRB030中文新聞語料庫,http://godel.iis.sinica.edu.tw/CKIP/publication.htm,2006。
[2] 葉怡成,類神經網路模式應用與實作(第八版),2006。
[3] A. Don, E. Zheleva, “Discovering interesting usage patterns in text collections: Integrating text mining with visualization” in Proceedings of the Sixteenth ACM Conference on Information, pp. 213–222, 2007.
[4] B. Fortuna, M. Grobelnik, and D. Mladenic, “Visualization of text document corpus,” Informatica (Slovenia), vol. 29, no. 4, pp. 497–504, 2005.
[5] C. D. Manning, P. Raghavan, H. Schütze, Introduction to Information Retrieval, Cambridge University Press, pp. 100-123, 2008.
[6] C. Faloutsos and K. Lin: “Fastmap: A fast Algorithm for Indexing, Data-Mining and Visualization of Traditional and Multimedia Datasets”,in Proceedings of Proc. ACM SIGMOD Conf, pp. 163-174, 1995.
[7] C.H. Tsai, MMSEG: A word identification system for mandarin Chinese text based on two variants of the maximum matching algorithm. http://technology.chtsai.org/mmseg/, accessed 1996.
[8] C. J. van RIJSBERGEN., Information Retrieval, Information Retrieval Group, University of Glasgow. http://www.dcs.gla.ac.uk/Keith/Preface.html, accessed 2009/11/9.
[9] E. Morse, Document Visualization, http://itl.nist.gov/iaui/vvrg/emorse/papers/soa/DocumentVisualization.htm#_Toc409515524, accessed 2010/1/15.
[10] F. V. Paulovich, M. C. F. de Oliveira, R. Minghim, “The projection explorer: A flexible tool for projection-based multidimensional visualization,”in SIBGRAPI. IEEE Computer Society, pp. 27–36, 2007.
[11] F. V. Paulovich and R. Minghim, “Text map explorer: a tool to create and explore document maps,” in IV. IEEE Computer Society, pp. 245–251, 2006.
[12] G. Salton, Wong, A. & Yang, C. S., “A vector space model for automatic indexing”, Communications of the ACM, 18 (11), pp. 613-620, 1975.
[13] I. H. Witten, E. Frank, Data Mining, Morgan Kaufmann Publishers, 2005.
[14] Java3D, version 1.5.2 .
https://java3d.dev.java.net/, accessed 2009/11/20.
[15] J. Benson, P. Lafleur, D. Crist, B. Watson, Agent-based Visualization of Streaming Text, 2008.
[16] J.York, S. Bohn, Clustering and Dimensionality Reduction in SPIRE. Symp. on Advanced Intelligence Processing and Analysis, pp. 73, 1995.
[17] M. Ankerst: “Visual Data Mining”, Ludwig Maximilians Universität, München, 2001.
[18] M. Smucker, J.Allan, A New Measure of the Cluster Hypothesis, Advances in Information Retrieval Theory, pp. 281-288, 2009.
[19] PRISE, Interactive 3D Visualization for Document Retrieval. http://zing.ncsl.nist.gov/~cugini/uicd/viz.html , accessed 2010/1/15.
[20] R Korfhage. To see or not to see - is that the query? , 1991.
[21] S. Chakrabarti, Mining the Web, Morgan-Kaufmann Publishers, pp. 89-94, 2002.
[22] T. Honkela, S. Kaski, K. Lagus, T. Kohonen, Self-Organizing Maps of Document Collections,Neurocomputing, vol.21, pp. 101–117, 1998.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2013-07-08公開。
  • 同意授權瀏覽/列印電子全文服務,於2013-07-08起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信