系統識別號 | U0002-1107201903163800 |
---|---|
DOI | 10.6846/TKU.2019.00259 |
論文名稱(中文) | 多標籤分類方法應用於PTT資料 |
論文名稱(英文) | Multi-label classification methods applied to PTT data |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系應用統計學碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 107 |
學期 | 2 |
出版年 | 108 |
研究生(中文) | 黃冠傑 |
研究生(英文) | Kuan-Chieh Huang |
學號 | 606650025 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2019-07-01 |
論文頁數 | 41頁 |
口試委員 |
指導教授
-
陳景祥
共同指導教授 - 李百靈 委員 - 陳麗菁 委員 - 吳牧恩 |
關鍵字(中) |
多標籤分類 問題轉換 類神經網路 TF-IDF 機率預測 |
關鍵字(英) |
Multi-label classification problem transformation neural network TF-IDF probabilistic prediction |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
隨著社群網路的普及,越來越多人於網路上發表文章來闡述自己的想法,其中PTT也是一大熱門的論壇,形成許多獨特的網路流行文化。在文章分析中,文章分類是很常見的議題,但是一篇文章可能不只有一個標籤屬性,而是多標籤的範疇。本篇研究使用多標籤方法為問題轉換的方法,將多標籤分類轉換為單標籤分類後搭配傳統的分類器進行分類,並加入類神經網路來比較。另外,過去的研究也認為考慮標籤與標籤間的關係能有效提升分類效果,故本篇論文中也使用Copy轉換並以機率的方式進行標籤預測。本篇研究使用PTT論壇電影版的文章資料進行多標籤分類,並使用三種轉換方法搭配分類器,加上另外使用機率預測的方式共八種方法,最後採用六種評估指標衡量各個方法的分類效果。 |
英文摘要 |
With the popularity of the social network, more and more people publish articles to express their opinions on the internet forum platforms. Among them, PTT is a popular forum at Taiwan, forming a unique network culture. Generally, document classification is a quite common branch in text analysis. However, some articles may have multi-label category. The multi-label method used in this paper is the problem transformation, which converts multi-label classification into a single-label classification algorithm. In addition, we also adopt neural network classification and compare it with the other methods. On the other hand, it is generally considered that the information of relationship among labels can effectively improve the classification performance. In this paper, we adopt the copy transformation and use posterior probabilities to predict the labels. Eight combinations of algorithms are used for multi-label classification to classify the PTT movie data and six evaluation metrics are adopted to measure the performance of all classification methods. |
第三語言摘要 | |
論文目次 |
目錄 第壹章、緒論 1 第一節 研究背景 1 第二節 研究動機與目的 2 第三節 論文架構 3 第貳章、文獻探討 4 第一節 多標籤分類方法 4 1. 二元關聯轉換法 (Binary Relevance, BR) 4 2. 標籤冪集轉換法 (Label Powerset, LP) 4 3. 隨機標籤轉換法 (Random k-labelsets, RAkEL) 5 第二節 分類方法 6 1. 支持向量機 (Support Vector Machine, SVM) 6 2. 隨機森林 (Random Forest, RF) 9 3. 類神經網路 (Neural Network, NN) 11 第三節 評估指標 13 1. Example-based 13 2. Label-based 14 第參章、研究方法 15 第一節 方法與架構 15 第二節 文字處理 16 1. 斷詞 16 2. 文字量化 17 第三節 多標籤方法 18 1. 傳統多標籤方法與結合類神經網路 18 2. 複製轉換法(Copy transformation)搭配機率預測 19 第肆章、實例分析與比較 21 第一節 資料來源與處理 21 第二節 資料描述 22 第三節 分析結果 24 1. 標籤間關係的探討 24 2. RAkEL參數設定 25 3. 分析方法的比較 31 第伍章、結論與建議 34 第一節 結論 34 第二節 建議 35 參考文獻 36 附錄 38 圖目錄 圖 1 研究流程圖 3 圖 2 以四個標籤為例,(1) BR轉換法 (2) LP轉換法 5 圖 3 SVM多分類的一對一流程圖,以四類為例 8 圖 4 隨機森林(RF)流程圖 9 圖 5 類神經網路結構圖(隱藏層數為2) 11 圖 6 以四個標籤為例的COPY轉換法 19 圖 7 標籤個數長條圖 23 圖 8 不同評估方法下多標籤方法的分類效果比較 31 圖 9 多標籤方法於各評估指標表現的折線 32 表目錄 表 1 電影資料集描述 22 表 2 電影資料集中各標籤總筆數 22 表 3 以條件機率表示標籤間的關係(列為條件,欄為給定條件下發生的事件) 26 表 4 電影資料集中使用Copy轉換搭配SVM分類器以機率預測的方法與其他常用的多標籤分類器結果比較 31 表 5 比較在不同詞集數下使用Copy轉換法以機率預測標籤的方法的分類表現 33 表 6 RAkEL+SVM中k=2到15的分類方法表現 38 表 7 給定權重w1、w2分別0.75與0.25下的成本函數 39 表 8 給定權重w1、w2分別0.7與0.3下的成本函數 40 表 9 給定權重w1、w2分別0.65與0.35下的成本函數 41 |
參考文獻 |
Boser, B. E., Guyon, I. M., Vapnik, V. N., 1992. A training algorithm for optimal margin classifiers, COLT '92 Proceedings of the fifth annual workshop on Computational learning theory, 144-152. Breiman, L., 2001. Random Forests, Machine Learning, 45(1), 5-32. He, H., Xia, R., 2018. Joint Binary Neural Network for Multi-label Learning with Applications to Emotion Classification, Lecture Notes in Computer Science, 11108, 250-259. Probst, P., Au, Q., Casalicchio, G., Stachl, C., Bischl, B., 2017. Multilabel classification with R package mlr, R Journal, 9(1), 352-369. Ren, F., Sohrab, M.G., 2013. Class-indexing-based term weighting for automatic text classification, Information Sciences, 236, 109-125. Rivolli, A., De Carvalho, A. C. P. L. F., 2018. The utiml Package: Multi-label Classification in R, R Journal, 10(2), 24-37. URL https://journal.r-project.org/archive/2018/RJ-2018-041/index.html. Tsoumakas, G., Katakis, I., Vlahavas, I., 2011. Random k-labelsets for multilabel classification, IEEE Transactions on Knowledge and Data Engineering, 23(7), 1079-1089. Wang, S., Wang, J., Wang, Z., Ji, Q., 2014. Enhancing multi-label classification by modeling dependencies among labels, Pattern Recognition, 47(10), 3405-3413. Zhang, M.-L., Zhou, Z.-H., 2013. A review on multi-label learning algorithms, IEEE Transactions on Knowledge and Data Engineering, 26(8), 1819-1837. 吳登揚,2017。基於不同主題的中文情感分析技術比較,淡江大學統計學系應用統計學碩士班碩士論文。 沈彥廷,2012。資料複雜度指標對資料探勘分類技術的影響,淡江大學統計學系應用統計學碩士班碩士論文。 |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信