§ 瀏覽學位論文書目資料
系統識別號 U0002-0509201916010400
DOI 10.6846/TKU.2019.00145
論文名稱(中文) 基於人工智慧與爬蟲技術之網頁智慧產生器之研究
論文名稱(英文) Smart Web Generator based on Artificial Intelligence and Web Crawler Techniques
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 107
學期 2
出版年 108
研究生(中文) 蘇柏瑋
研究生(英文) Po-Wei Su
學號 606410867
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2019-06-14
論文頁數 41頁
口試委員 指導教授 - 張志勇(cychang@mail.tku.edu.tw)
共同指導教授 - 黃連進
委員 - 陳裕賢
委員 - 陳宗禧
委員 - 張志勇
關鍵字(中) LSTM神經網路
tf-idf
自動化文章分類
自動化提取關鍵字
關鍵字(英) LSTM neural network
tf-idf
automated article classification
automated extraction of keywords
第三語言關鍵字
學科別分類
中文摘要
在網路發達的現今,各種產業也隨之進軍網路世界,其中,「新媒體產業」即是傳統媒體產業用網路與科技的產業,其也需要像傳統媒體一樣,利用人力撰寫新聞稿;新聞稿撰寫是媒體產業重要的工作之一,當新聞稿撰寫完成後,必需以人工的方式來判斷,文章屬於哪種類別及定義該文章對應的關鍵詞,但這些關鍵詞及文章類別不僅受到個人偏見的影響,也依賴著過往記者的經驗傳承及時事的影響,導致新聞的被搜索率、閱讀率一直不見提升。為了提升新聞產業的上稿速度、降低人力負擔、以及增加新聞稿分類及關鍵字定義的準確度,我們將透過AI人工智慧的技術,協助新聞產業自動分析新聞稿、自動建議關鍵字,且自動對新聞稿進行分類,這樣一來,不僅新聞產業可以節省人力,也能降低人為因素所影響的分類品質,更能夠使新聞稿分類得以貼近時事。因此,本論文利用人工智慧的技術,透過過往的文章分類經驗,使人工智慧學習如何正確分類新聞稿與提取關鍵字。
本論文設計之「文章分類暨提取關鍵詞系統」使用LSTM神經網路為基礎,結合爬蟲、tf-idf與其他資料預處理等技術,達成自動化文章分類與自動化提取關鍵字之目標。
英文摘要
Nowadays, with the development of the Internet, various industries have also entered the online world. Among them, the "new media industry" is the industry of Internet and technology used in the traditional media industry. It also needs to use human resources to write press releases like traditional media. Press release writing is one of the important tasks of the media industry. When the press release is completed, it must be judged manually. Which category the article belongs to and the keywords corresponding to the article are defined, but these keywords and article categories are not only Affected by personal prejudice, and relying on the experience of past reporters to pass on the influence of timely events, the search rate and reading rate of news have not improved. In order to improve the speed of the news industry, reduce the burden of manpower, and increase the accuracy of press release classification and keyword definition, we will assist the news industry to automatically analyze press releases, automatically suggest keywords, and automatically through AI artificial intelligence technology. The classification of press releases will not only save the manpower of the news industry, but also reduce the quality of the classification affected by human factors, and will enable the classification of news articles to be close to current events. Therefore, this thesis uses artificial intelligence technology to make artificial intelligence learn how to correctly classify news reports and extract keywords through past article classification experience.
The "Article Classification and Extraction Keyword System" designed in this thesis uses LSTM neural network as the basis, combined with web crawler, tf-idf and other data preprocessing techniques to achieve the goal of automatic article classification and automated keyword extraction.
第三語言摘要
論文目次
目錄	V
圖目錄	VI
表目錄	VII
第一章、簡介	1
第二章、相關研究	3
第三章、背景知識	5
3-1 長短期記憶	5
3-2 tf-idf	7
3-3 Web Crawler	8
第四章、系統架構	10
4-1方法一之系統架構	10
4-2 方法二之系統架構	17
第五章、系統展示	20
5-1 方法一	20
5-2 方法二	23
第六章、實驗分析	25
6-1 方法一之實驗分析	25
6-2 方法二之實驗分析	27
第七章、結論	28
參考文獻	29
附錄-英文論文	30

 
圖目錄
圖 1 2018年網路使用率	1
圖 2 遞歸神經網路所轉換的展開圖	6
圖 3遞歸神經網路與長短期記憶神經網路的比較圖	7
圖 4 系統架構圖	10
圖 5 方法一之「訓練階段」與「使用階段」	11
圖 6 訓練階段之架構圖	12
圖 7 資料收集模組與資料預處理模組	13
圖 8 「文章分類模組」之神經網路模型架構圖	14
圖 9 使用階段之系統架構圖	15
圖 10 資料預處理模組會自動處裡編輯人員撰寫之新聞稿	15
圖 11 將該篇文章詞向量輸入文章分類模組進行分類	16
圖 12 關鍵字提取模組之架構圖	17
圖 13 方法二之系統架構	17
圖 14 關鍵字提取模組之架構	18
圖 15 文章分類模組架構圖	19
圖 16 爬蟲程式下載之新聞文檔	21
圖 17 LSTM神經網路之訓練過程	21
圖 18詞向量	22
圖 19  LSTM神經網路進行分類	22
圖 20 某篇文章之前五名關鍵字	23
圖 21 該關鍵字之前50筆相關新聞	24
圖 22 新聞數量統計	24
圖 23 LSTM神經網路之測試集準確率(1)	25
圖 24 LSTM神經網路之測試集準確率(2)	26
圖 25 LSTM神經網路之測試集準確率(3)	26


 
表目錄
表 1 相關研究之比較表	4
參考文獻
[1]	2018 台灣網路報告, https://report.twnic.tw/2018/
[2]	A. A. Hakim, A. Erwin, K. I. Eng, M. Galinium and W. Muliady, "Automated document classification for news article in Bahasa Indonesia based on term frequency inverse document frequency (TF-IDF) approach," 2014 6th International Conference on Information Technology and Electrical Engineering (ICITEE), Yogyakarta, 2014, pp. 1-4.
[3]	Salton, G. and Buckley, C. 1988 Term-weighting approaches in automatic text retrieval. Information Processing & Management 24 (5): 513–523.
[4]	L. Nguyen, "A Proposal of Discovering User Interest by Support Vector Machine and Decision Tree on Document Classification," 2009 International Conference on Computational Science and Engineering, Vancouver, BC, 2009, pp. 809-814.
[5]	Wikipedia,”SVM”, https://zh.wikipedia.org/wiki/SVM
[6]	 S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural Computation, 9(8):1735–1780, 1997.
[7]	Wikipedia,” web crawler”, https://en.wikipedia.org/wiki/Web_crawler
論文全文使用權限
校內
紙本論文於授權書繳交後5年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後5年公開
校外
同意授權
校外電子論文於授權書繳交後5年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信