系統識別號 | U0002-0708201019095600 |
---|---|
DOI | 10.6846/TKU.2010.00229 |
論文名稱(中文) | 多層次規則優先度排序對關聯式分類效能影響 |
論文名稱(英文) | The Impact of Performance with Multi-Level Rule Priority for Associative Classification |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 資訊工程學系碩士在職專班 |
系所名稱(英文) | Department of Computer Science and Information Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 98 |
學期 | 2 |
出版年 | 99 |
研究生(中文) | 陳昭偉 |
研究生(英文) | Chao-Wei Chen |
學號 | 797410098 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | 英文 |
口試日期 | 2010-06-15 |
論文頁數 | 42頁 |
口試委員 |
指導教授
-
蔣定安
委員 - 蔣定安 委員 - 葛煥昭 委員 - 王鄭慈 |
關鍵字(中) |
關聯式分類 排序 規則 多層次規則優先 |
關鍵字(英) |
Associative Classification Ranking Rule Multi-level Rule Priority |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
關聯式法則(Associative Rule)應用在文件分類(Text Categorization)時,一般在規則排序(ranking)上主要依據信賴度(confidence)由高到低、支援度(support)由高到低、規則長度由短至長來排序,然而文件分類時會遇到的多重規則問題,一般的研究多半忽略或很少有相關探討,本論文將以一般的排序方式加入規則條件,探討規則對文件分類效能的影響。 本論文將以Reuters21578文件集加以實作,利用關聯式法則(Association Rule)找出所有共同出現在一篇文件中的規則,以Lazy法篩選並排序規則,分別統計所有規則出現在各規則的情況以定出所有規則的優先順序,最後根據規則優先度調整順序後的規則建立分類器,以未知規則的測試文件驗證分類效能,並觀察不同的規則順序是否能改善分類結果。 |
英文摘要 |
Applying Associative Rule on Text Classification, the rule ranking is generally in accordance with confidence, support and length of rules. However, most recent researches often ignore the issue of multiple classes, this study will adopt the general ranking with the condition of class and will have a discussion on the effect of text classification with our ranking method. Our data source is Reuters 21578 collection and the implementation steps as follow: 1.we will adopt Association Rule to discover all frequent ruleitems; 2. to prune and rank the rules by Lazy method; 3.to figure out all rule frequencies of each class for deciding the sequence of classes; 4.to build the associative classifier according to the class priority; 5.classifiy unseen test documents to verify the performance and have an observation of various class priority whether our method could improve the accuracy of associative classification or not. |
第三語言摘要 | |
論文目次 |
第1章 緒論 1 1.1 前言 1 1.2 研究動機與目的 2 1.3 論文結構 4 第2章 相關文獻探討 5 2.1 關聯式分類 5 2.1.1 預處理 6 2.1.2 規則產生 7 2.1.3 規則排序 9 2.1.4 刪除規則 10 2.2 Lazy 11 2.2.1 Lazy規則排序 11 2.2.2 Lazy刪除規則 13 2.3 評量值 14 第3章 研究方法 17 第4章 實驗結果 24 4.1 資料來源 24 4.2 實驗結果 25 4.2.1 Lazy分類結果 25 4.2.2 多層次規則優先執行順序分類結果 26 4.3 實驗結果分析 28 第5章 結論與未來展望 30 參考文獻 31 附錄 英文論文 33 圖目錄 圖 2-1關聯式分類器分類流程示意圖 6 圖 2-2 CBA演算法 10 圖 2-3 database coverage演算法 11 圖 2-4 CBA 排序法 12 圖 2-5 Lazy 排序法 12 圖 2-6 Lazy 演算法 14 圖 3-1多層次規則優先流程圖 21 表目錄 表 2-1關聯式規則搜索與關聯式分類差異表 5 表 2-2文件數量分佈表 15 表 3-1重覆規則刪除表 17 表 3-2相同規則刪除表 17 表 3-3階層表 19 表 3-5互相影響係數表 20 表 4-1資料來源類別數量表 24 表 4-2Lazy分類結果 26 表 4-3Lazy各類別分類結果 26 表 4-4多層次規則分類結果 27 表 4-5多層次規則各類別分類結果 28 表 4-6兩分類器比較 29 |
參考文獻 |
[1] F. THABTAH, “A review of associative classification mining,” Knowl. Eng. Rev., vol. 22, 2007, pp. 37-65. [2] B. Liu, W. Hsu, and Y. Ma, “Integrating Classification and Association Rule Mining,” Knowledge Discovery and Data Mining, 1998, pp. 86, 80. [3] Yongwook yoon, Gary G. Lee, Tseng, “Text Categorization Based on Boosting Association Rules,” Semantic Computing 2008 IEEE International Conference on, 2008, pp. 136-143. [4] M.F. Porter, “An algorithm for suffix stripping,” Readings in information retrieval, Morgan Kaufmann Publishers Inc., 1997 , pp. 313-316. [5] J.R. Quinlan and R.M. Cameron-jones, “FOIL: A Midterm Report,” IN PROCEEDINGS OF THE EUROPEAN CONFERENCE ON MACHINE LEARNING, vol. 667, 1993, pp. 3--20. [6] R. Agrawal and R. Srikant, “Fast Algorithms for Mining Association Rules,” Proc. 20th Int. Conf. Very Large Data Bases, VLDB, J.B. Bocca, M. Jarke, and C. Zaniolo, eds., Morgan Kaufmann, 1994, pp. 487–499.. [7] U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, eds., Advances in knowledge discovery and data mining, American Association for Artificial Intelligence, 1996. [8] P.G. Elena Baralis, “A Lazy Approach to Pruning Classification Rules,” Dec. 2002.. [9] K. Wang, Y. He, and D.W. Cheung, “Mining confident rules without support requirement,” Proceedings of the tenth international conference on Information and knowledge management, Atlanta, Georgia, USA: ACM, 2001, pp. 89-96. [10] W. Li, J. Han, and J. Pei, “CMAR: accurate and efficient classification based on multiple class-association rules,” Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on, 2001, pp. 376, 369. [11] 國家圖書館, “全國博碩士論文資訊網, http://etds.ncl.edu.tw/theabs/index.html.” |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信