§ 瀏覽學位論文書目資料
系統識別號 U0002-3008202114463300
DOI 10.6846/TKU.2021.00854
論文名稱(中文) 基於機器學習與深度學習之情緒分析研究與實作
論文名稱(英文) Based on machine learning and deep learning Sentiment Analysis Research and Practice
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 109
學期 2
出版年 110
研究生(中文) 林子皓
研究生(英文) Zih-Hao Lin
學號 608410154
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2021-07-16
論文頁數 28頁
口試委員 指導教授 - 張志勇
共同指導教授 - 郭經華
委員 - 廖文華
委員 - 游國忠
委員 - 張志勇
關鍵字(中) 人工智慧
機器學習
情緒分析
情緒詞庫
貝氏分類器
關鍵字(英) Artificial Intelligence
Machine learning
Sentiment analysis
Emotional vocabulary
Bayesian Classifier
第三語言關鍵字
學科別分類
中文摘要
現今隨著深度學習技術的飛速進步,深度學習類神經網路已在電腦視覺和自然語言處理等許多領域有著革命性改變,也隨著深度學習應用的普及,漸漸融入越來越多的使用者和應用程式的智能化服務,逐漸影響人們的日常生活。  
相較於傳統的人工智慧,現有的深度學習方法不需要太多的專業領域知識,僅需提供問題與相對應的答案做為訓練資料,即可令電腦學習出一套深度學習模型來回答新的問題,因此在深度學習中如何蒐集與準備大量的訓練資料尤為重要。
本論文提出一套基於機器學習分析大量未標注情緒資料的方法,利用少量資料訓練機器學習模型,令機器學習模型分析出大量資料的情緒類別,再利用機器學習分析出的大量資料訓練深度學習模型,並從訓練中提取出字詞的不同情緒,建立各種情緒詞庫。本論文的工作主要分成以下幾大步驟,首先,利用網路爬蟲技術蒐集網路上大量不同類別的資料,由於數位化的趨勢現今民眾會在各大網路平台上發表對議題的看法,像是PTT論壇,PTT是一個已有不同分類版的論壇,其次,因為PTT論壇的留言具有推噓功能,且有討論版對導論議題的分類,所以可以直接對蒐集到的資料給予符合議題類別的標籤與正負評的標籤,這樣就可以幫訓練資料自動上標籤。最後,透過機器學習貝氏分類器兩層分別訓練具有議題類別標籤與正負評標籤的資料後,可以得到分類議題的模型與分類正負評的模型。之後可以將來自於網路上各處的資料,再透過分類正負評的模型分類資料正負評,幫助這些來自網路各處的資料自動填上議題標籤與正負評標籤,進而去訓練各種不同的深度學習模型。本論文提出一套自動化蒐集資料,並且自動對資料進行標籤分類的演算法,透過以上方式解決深度學習訓練模型時大量人力標注資料的問題。
英文摘要
Nowadays, with the rapid advancement of deep learning technology, deep learning neural networks have been revolutionized in many fields such as computer vision and natural language processing. With the popularization of deep learning applications, they have been gradually integrated into more and more services. Compared with traditional artificial intelligence, the existing deep learning methods only need to provide questions and corresponding answers as the training materials, so that the computer can learn a set of deep learning models to answer new questions. Therefore, how to collect and prepare a large amount of training data in deep learning is particularly important.
This thesis proposes a method for analyzing a large amount of emotional data based on machine learning, using a small amount of labeled data to train a machine learning model, making the machine learning model being able to analyze the emotional categories of a large amount of data. The trained models will be used to train a deep learning model using a large amount of data obtained from the Internet. This work is mainly divided into the following major steps. First, the web crawler technology is used to collect a large number of different types of data from Internet. Secondly, we obtained the labeled data from PTT forum. Finally, through machine learning, various classification and emotion models are trained based on the labeled data obtained from PTT forum. This thesis proposes a technique for automatically collecting data and automatically labeling the data. Through the above methods, the problem of a large number of human labeling data when deep learning training models is solved. The extracted emotional vocabulary can be used when designing deep learning models. See alternative training methods from different aspects.
第三語言摘要
論文目次
目錄	V
圖目錄	VII
表目錄	VIII
第一章、	簡介	1
第二章、相關研究	3
第三章、背景知識	6
3.1、爬蟲技術	6
3.2、CKIP	7
3.3、貝氏定理	8
3.4、貝氏分類器	10
3.5、情緒詞庫	13
第四章、系統架構	14
4.1、環境與問題描述	14
4.2、系統架構	14
第五章、	實驗分析	23
5.1、數據集	23
5.2、實驗分析	23
5.3、實驗比較	24
第六章、結論	27
參考文獻	28
 
圖目錄
圖 1、爬蟲城市	7
圖 2、CKIP程式	8
圖 3、爬蟲目標	15
圖 4、CKIP斷詞斷句並保留中文	16
圖 5、分類文章討論議題方向 (訓練期)	16
圖 6、貝氏分類器模型應用	17
圖 7、貝氏分類器模型訓練	18
圖 8、分類文章討論議題方向 (使用期)	18
圖 9、分類議題情緒	20
圖 10、總使用期	20
圖 11、情緒詞庫	22
圖 12、訓練情緒分析模型中的詞庫計算	22
圖 13、政治版資料	23
圖 14、其餘資料	24

 
表目錄
表 1、相關文獻比較表	5
表 2、貝氏定理資料表	10
表 3、貝氏分類器資料表	12
表 4、貝氏分類器資料表(2)	21
表 5、混淆矩陣表	25
表 6、實驗分析圖	26
參考文獻
[1]	V. Sathya, A. Venkataramanan, A. Tiwari and D. D. P.S., "Ascertaining Public Opinion Through Sentiment Analysis," 2019 3rd International Conference on Computing Methodologies and Communication (ICCMC), Erode, India, 2019, pp. 1139-1143, doi: 10.1109/ICCMC.2019.8819738.
[2]	V. S. Pagolu, K. N. Reddy, G. Panda and B. Majhi, "Sentiment analysis of Twitter data for predicting stock market movements," 2016 International Conference on Signal Processing, Communication, Power and Embedded System (SCOPES), Paralakhemundi, 2016, pp. 1345-1350, doi: 10.1109/SCOPES.2016.7955659.
[3]	Meylan Wongkar and Apriandy Angdresey, "Sentiment Analysis Using Naive Bayes Algorithm Of The Data Crawler: Twitter"  2019 Fourth International Conference on Informatics andComputing(ICIC), 2019,doi:10.1109/ICIC47613.2019.8985884.
[4]	Merve Rumelli, Deniz Akkuş, Özge Kart and Zerrin Isik, " Sentiment Analysis in Turkish Text with Machine Learning Algorithms," 2019 Innovations in Intelligent Systems and Applications Conference (ASYU), Izmir, Turkey, 2019, doi: 10.1109/ASYU48272.2019.8946436.
論文全文使用權限
校內
校內紙本論文延後至2026-06-30公開
同意電子論文全文授權校園內公開
校內電子論文延後至2026-06-30公開
校內書目立即公開
校外
同意授權
校外電子論文延後至2026-06-30公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信