§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2607202110570000
DOI 10.6846/TKU.2021.00706
論文名稱(中文) 基於人工智慧之輿情分析系統設計與實作
論文名稱(英文) Design and implementation of public opinion analysis system based on artificial intelligence
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 109
學期 2
出版年 110
研究生(中文) 林承諺
研究生(英文) Cheng-Yan Lin
學號 608410162
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2021-07-16
論文頁數 54頁
口試委員 指導教授 - 張志勇
共同指導教授 - 郭經華
委員 - 游國忠
委員 - 蒯思齊
委員 - 張志勇
關鍵字(中) 人工智慧
輿情分析
自動化評分
情緒辭庫
BERT
關鍵字(英) Artificial Intelligence
Public Opinion Analysis
Automatic Scoring
Emotional vocabulary
BERT
第三語言關鍵字
學科別分類
中文摘要
對於政府來說,如何在提出政策項目後,快速收集、準確分析民意,讓政府了解民眾對於新政策的喜好,並做為新施政項目的檢討依據與下一階段政策部署之參考要素,是政府施政與改進的重大關鍵,藉此幫助政府鞏固民心、了解不同年齡層在意的項目與滿意度。
    本論文擬解決的議題一:網路上哪些文章與政府之業務單位相關?網路之文章不會提及對應施政部門之名稱,導致政府單位收集民意時,無從得知文章對應之施政部門。網路收集之民意也不會說明在討論哪項重要之施政議題,為了有效統計施政議題之民意,也需要將文章對應施政議題。議題二:施政品質滿意度為何?網路搜集之文章與留言並沒有對應之正負評,無從得知民意喜好。
    針對議題一的解決方案中,將政府部門提供之關鍵字與重要施政議題之關鍵字進行關鍵字交集比對的方式,藉此將關鍵字對應進施政議題,本論文接著爬取之新聞內容及留言就能歸屬於對應議題,並使用開發之新聞關聯度計算演算法計算文章與施政議題之相關性。議題二之解決方案中,本論文利用公開之旅館留言情緒資料集建立BERT基底情緒分析模型,讓模型將留言分類成正負評。之後,本論文利用情緒詞庫將網路爬取之新聞留言貼上對應情緒標籤,再使用BERT遷移學習之概念,將貼上對應情緒標籤之新聞內容與留言,再次訓練進BERT基底模型,藉此強化BERT情緒分析模型之效能。
本論文之效能為將網路之文章對應施政議題、利用自動化之方式搜集內政部相關新聞並進行BERT模型情緒分析、提出了情緒留言自動貼標籤系統、利用遷移式學習技術,讓原本適用於旅館飯店之留言情緒分析也能應用於新聞領域、可適用於各種領域之輿情分析。
英文摘要
For the government, how to quickly collect and accurately analyze public opinion after proposing policy items, so that the government understands the people’s preferences for the new policy, and use it as a basis for review of new governance items and a reference element for the next stage of policy deployment. The key to governance and improvement is to help the government consolidate the hearts of the people and understand the projects and satisfaction of different age groups.
    Question 1: Which articles on the Internet are related to the business unit of the government? The article on the Internet does not mention the name of the corresponding administrative department. As a result, when the government collects public opinion, it is impossible to know the corresponding administrative department of the article. The public opinion collected on the Internet does not indicate which important governance issues are being discussed. In order to effectively count public opinions on governance issues, it is also necessary to match the articles to the governance issues. Topic 2: What is the satisfaction with the quality of governance? The articles and comments collected on the Internet do not have corresponding positive or negative reviews, and there is no way to know public opinion.
    In the solution to issue one, the keywords provided by the government department and the keywords of important governance issues are compared with keywords, so as to map the keywords to the governance issues. This paper will then crawl the news content and The message can be attributed to the corresponding topic, and the developed news relevance calculation algorithm is used to calculate the correlation between the article and the governance topic. In the solution to the second issue, this paper uses the public hotel message sentiment data set to establish a BERT-based sentiment analysis model, and let the model classify the messages into positive and negative comments. After that, this paper uses the emotional vocabulary to label the news messages crawled on the Internet with corresponding emotional tags, and then uses the concept of BERT migration learning to paste the news content and messages corresponding to the emotional tags, and train them into the BERT base model again. This strengthens the performance of the BERT sentiment analysis model.
第三語言摘要
論文目次
目錄	VI
圖目錄	VIII
表目錄	X
程式目錄	XI
第一章、	簡介	1
第二章、相關研究	5
第三章、背景知識	9
3.1、Google Trends	9
3.2、爬蟲技術	11
3.3、CKIP	12
3.4、TF-IDF	13
3.5、情緒詞庫	14
3.6、BERT	15
第四章、系統架構	19
4.1、環境與問題描述	19
4.2、系統架構	19
第五章、實驗分析	44
5.1、實驗環境	44
5.2、數據集	44
5.3、實驗比較	44
第六章、結論	52
參考文獻	54
 
圖目錄
圖 1、Google Trends之熱搜關鍵字查詢	10
圖 2、Google Trends之熱門相關搜詢	10
圖 3、Google Trends之應用架構圖	11
圖 4、爬蟲之應用架構圖	12
圖 5、CKIP之應用架構圖	13
圖 6、TF-IDF之應用架構圖	14
圖 7、情緒詞庫之應用架構圖	15
圖 8、BERT之應用架構圖	18
圖 9、系統整體架構圖	20
圖 10、擴充關鍵字、提高關鍵字精準度之重點架構圖	22
圖 11、文章對應施政議題之重點架構圖	23
圖 12、文章對應施政議題之解題步驟整體架構圖	24
圖 13、評估文章對應施政議題關聯度之機率演算法之重點架構圖	25
圖 14、新聞關聯度解決方案之整體架構圖	26
圖 15、BERT上游任務之圖	27
圖 16、BERT情緒分析之重點架構圖	28
圖 17、自動貼標籤系統之重點架構圖	39
圖 18、遷移學習之強化BERT模型重點架構圖	40
圖 19、施政滿意度解決方案之整體架構圖	42
圖 20、BERT情緒分析應用於新聞文章之架構圖	42
圖 21、滿意度計算之整體架構圖	43
圖 22、人工判別圖	45
圖 23、BERT基底模型新聞情緒分析之混淆矩陣圖	48
圖 24、情緒詞庫新聞情緒分析之混淆矩陣圖	49
圖 25、BERT新聞情緒分析之混淆矩陣圖	50
圖 26、情緒分析之F1分數比較圖	51


 
表目錄
表 1、相關文獻比較表	8
表 2、混淆矩陣表	47

 
程式目錄
程式 1、BERT模型建立演算法之上游任務dataset	28
程式 2、BERT模型建立演算法之上游任務dataloader	29
程式 3、BERT模型建立演算法之下游任務模型參數設定	31
程式 4、BERT模型建立演算法之下游任務模型訓練	33
參考文獻
[1]洪誌謙 1, 呂芳懌2, "新聞收集與政治輿情分析," 2019 臺灣網際網路研討會, 東吳大學.
[2]Aparup Khatua, Erik Cambria, Shirley S. Ho, Jin Cheon Na, "Deciphering Public Opinion of Nuclear Energy on Twitter," 2020 International Joint Conference on Neural Networks (IJCNN)
[3]Gen Li, QiuSheng Zheng, Long Zhang, SuZhou Guo, LiYue Niu, "Sentiment Infomation based Model For Chinese text Sentiment Analysis," 2020 IEEE 3rd International Conference on Automation, Electronics and Electrical Engineering (AUTEEE).
[4]Priya Chakriswaran, Durai Raj Vincent, Kathiravan Srinivasan, Vishal Sharma, Chuan-Yu Chang and Daniel Gutiérrez Reina, "Emotion AI-Driven Sentiment Analysis: A Survey, Future Research Directions, and Open Issues," Appl. Sci. 2019, 9(24), 5462, Received: 1 October 2019 / Revised: 7 December 2019 / Accepted: 7 December 2019 / Published: 12 December 2019
[5]Marco Pota, Mirko Ventura, Rosario Catelli1 and Massimo Esposito, "An Effective BERT-Based Pipeline for Twitter Sentiment Analysis: A Case Study in Italian," Selected Papers from the 11-th International Conference on Intelligent Networking and Collaborative Systems (INCoS-2019) and the 22nd International Conference on Network-Based Information Systems (NBiS-2019),Sensors 2021, 21(1), 133.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信