中文論文名稱 局部特徵強化結合關聯式法則與特殊類別優先權分類系統建置
英文論文名稱 The construct of document classification system in strengthening local feature with association rule and special priority of classification
系所名稱(中) 資訊工程學系碩士班
系所名稱(英) Department of Computer Science and Information Engineering
研究生中文姓名 廖英凱
研究生英文姓名 Ying-Kai Liao
中文關鍵字 文件分類  關聯式法則  文字探勘 
英文關鍵字 document classification  association rule  text mining 
中文摘要 利用關鍵字的觀念,我們可以從一群已經標示分類的文件,取得適當分類規則,也就是利用類別關鍵詞,並使用這樣的依據對未標示類別的文件進行分類的工作。
英文摘要 By using feature keywords, we can obtain some appropriate rules from a group of labeled documents. According to this way, we can classify the documents which haven’t been labeled. In this paper, we will discuss how to choose some training datum to be a basic, to calculate all keywords’ weights, to judge the keywords’ importance by their distribution, first, we will use a better way to calculate the keywords weight, and then combine two words as a new word by association rule to help us increase the keywords. At last, according to the character of the datum, we give different category with different priority. It will make the classification more efficiency.
論文目次 目錄 ─ Contents
第一章 緒論 1
1.1前言 1
1.2研究的動機與目的 2
1.3論文架構 5
第二章 相關文件與研究探討 6
2.1文件分類流程 7
2.2.1特徵萃取 9
2.2.2文件資料预處理 11
2.2.3文件呈現與還原 13
2.2.4特徵選取 16
2.3文件分類 19
2.4機器學習 21
2.5分類演算法介紹 23
2.5.1Rocchio分類法 23
2.5.2Window-hoff分類法 24
2.5.3決策樹分類法 25
2.5.4 SVM支持向量機 26
2.5.5 KNN最近鄰居法則 27
2.5.6 Naïve-Bayes貝氏分類 28
2.6關聯式法則分析 29
第三章研究方法 30
3.1分類系統流程 30
3.2關鍵詞選取 32
3.3改良傳統TFIDF權重值 34
3.4利用關聯式法則結合多個詞彙當關鍵詞 37
3.5跨領域文件分類修正 43
第四章實驗方法及步驟 46
4.1資料來源 47
4.2資料預處理結果 49
4.3貝氏機率分類 51
4.4實驗結果 52
第五章結論與未來展望 56
5.1結論 56
5.2未來展望 57
參考文獻 58
英文論文 60
圖2.1-1 文件分類之系統流程 8
圖2.2.1-1 以詞彙與頻率的陣列表示一份文件 10
圖2.2.2-1 特徵詞頻率與重要性之關係圖 12
圖2.4-1 文件分類學習過程 21
圖2.4-2 機器學習流程 22
圖2.5.4-1 SVM 26
圖3.1-1分類系統流程 30
圖3.4-1 關聯式法則採礦結果 40
圖3.4-2 複合關鍵詞在Training Data中各類別的分布情形 41
圖3.4-3 複合關鍵詞在Training Data中的各項數據統計 41
表3.3-1 改良後使無用的關鍵詞權重弱化 35
表3.3-2 改良後加強關鍵詞在不同類別的差異 36
表3.4-1 改良式TFIDF結合關聯式法則後對Testing Data分
類修正情形 42
表3.5-1 修正化學類被分到生物類的文件修正情形 44
表3.5-2 對跨領域文件分類修正前後情形 45
表4.1-1 由各系所選取出的文章數 47
表4.1-2 文件描述的格式 48
表4.2-1 文件經過斷詞以後的結果 49
表4.2-2(a) 傳統TFIDF所得的關鍵詞各項數據統計與權重 50
表4.2-2(b) 改良式TFIDF所得的關鍵詞各項數據統計與權重 50
表4.4-1 傳統分類法與改良後各階段分類正確數比較 53
表4.4-2 傳統分類法與改良後各階段之分類回收率比較 53
表4.4-3 傳統分類法與改良後各階段之分類正確率比較 54
表4.4-4化學系的文件中出現大量偏生物的詞彙 55
公式3.3-1 改良式TFIDF 34
