淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-0108201909111000
中文論文名稱 文章摘要的方法比較:以台灣網路新聞資料為例
英文論文名稱 Comparisons of Text Summarization Methods :A Case Study of Online News in Taiwan
校院名稱 淡江大學
系所名稱(中) 大數據分析與商業智慧碩士學位學程
系所名稱(英) Master's Program In Big Data Analytics and Business Intelligence
學年度 107
學期 2
出版年 108
研究生中文姓名 莊浩偉
研究生英文姓名 Hao-Wei Chuang
學號 606890068
學位類別 碩士
語文別 中文
口試日期 2019-07-01
論文頁數 35頁
口試委員 指導教授-陳景祥
共同指導教授-張雅梅
委員-陳麗菁
委員-吳牧恩
中文關鍵字 TextRank  LexRank  詞向量  長短期記憶神經網路 
英文關鍵字 TextRank  LexRank  Word to Vector  Deep Learinig 
學科別分類
中文摘要 本研究主要比較四種自動文章摘要方法,主要使用圖理論方法和使用深層學習方法,有TextRank、LexRank、Word to Vector + TextRank及Bi-LSTM,並對網路新聞文章產生摘要,以兩種摘要評估指標做為比較。經過分析後發現,在沒有大量或是高質量數據資料建立模型下,利用圖理論方法建立出文章摘要是個有效的方法,且基於圖理論方法所形成的摘要,比深層學習網路模型建立的摘要更佳;而在圖理論中,經典的TextRank與結合Word to Vector的TextRank算法之間表現有勝有負,而LexRank的評估指標總體平均較低,但仍然具有語意完整且較佳的可讀性;而深層學習建立出的文章摘要會有不斷重複且可能不為目標的詞彙出現。
英文摘要 This study mainly compares four automatic article summarization methods, based on graph theory methods or deep learning, including TextRank, LexRank, Word to Vector + TextRank and Bi-LSTM, for generating abstracts for online news articles by two evaluation indices. After analysis, we find that the model based on graph theory is an effective method without a large number of high-quality data models. The abstract based on the graph theory method is better than the deep learning network model. For models using graph theory, the performances of the classic TextRank and the TextRank algorithm combined with Word to Vector are roughly the same, while the evaluation index of LexRank is generally low on average, but still has a complete semantic and better readability; The abstracts of the articles created by deep learning will have vocabularies that are repeated and may not be targeted terms.
論文目次 目錄
第一章 緒論 1
第一節 研究背景 1
第二節 研究動機目的 1
第三節 論文結構 2
第二章 文獻回顧 3
第一節 自動文章摘要 3
1. 自動文章摘要技術與主要方法 3
2. 自動文章摘要目的 4
3. 單文本與多文本文章摘要 4
4. 抽取式與抽象事自動文章摘要 5
5. 自動文章摘要評估方法 5
第二節 圖理論 6
1. TextRank 6
2. LexRank 7
第三節 深度學習 8
1. Word to Vector 8
2. 遞歸神經網路 Recurrent Neural Network 10
3. LSTM 10
第三章 研究方法 14
第一節 資料收集 14
1. 網路新聞參考摘要 14
2. 資料收集 15
3. 資料檢視 15
第二節 方法 17
1. TextRank 17
2. LexRank 17
3. Word2Vec + TextRank 18
4. Bilstm 18
第三節 摘要評估指標 20
1. ROUGE 20
2. Consine 相似度 20
第四章 分析結果與評估 21
第一節 生成摘要與標題作為比對 21
第二節 生成摘要與文章第一段作為比較 27
第五章 結論與建議 31
第一節 結論 31
第二節 未來建議 32
文獻參考 33

表目錄
表 1 訓練資料表 16
表 2 測試資料表 16
表 3 表 word2vec參數設定 18
表 4 類神經模型參數設定表 19
表 5 四種方法產生摘要之ROUGE評估結果(參考摘要為文章標題) 22
表 6 四種方法產生標題之Cosine評估結果 23
表 7 Deep Learning生成摘要高召回率 24
表 8 Deep Learning生成摘要中較高的精確度 25
表 9 Deep Learning生成摘要高精確度 26
表 10 四種方法產生摘要之ROUGE評估結果(參考摘要為文章首段) 27
表 11 四種方法產生標題之Cosine評估結果 28
表 12 Deep Learning生成摘要召回率高 29
表 13 Deep Learning生成摘要精確度高 30

圖目錄
圖 1 研究架構圖 2
圖 2 LexRank句子標量圖 8
圖 3 CBOW 9
圖 4 Skip-gram 9
圖 5 遞歸神經網路RNN架構圖 10
圖 6 LSTM架構圖 11
圖 7 LSTM細胞狀態 11
圖 8 雙向LSTM 架構圖 12
圖 9 生成摘要之Cosine1相似度(參考摘要為標題) 23
圖 10 生成摘要之Cosine2相似度(參考摘要為標題) 23
圖 11生成摘要之Cosine1相似度(參考摘要為文章首段) 28
圖 12 生成摘要之Cosine2相似度(參考摘要為文章首段) 28

參考文獻 中文文獻
1. 陳景祥(2018), R 軟體:應用統計方法, 二版,台北:東華。
2. 寧建飛、劉降珍(2016),融合 Word2vec與TextRank 的關鍵詞抽取研究。
3. 黃仁鵬、張貞瑩(2014),運用詞彙權重技術於自動文件摘要之研究。中華民國資訊管理學報12(4)。
4. 劉海燕、張 鈺(2017),基于lexrank的中文單文檔摘要方法。


網站文獻
1. Understanding LSTM Networks: http://colah.github.io/posts/2015-08-Understanding-LSTMs/
2. RNN - Recurrent Neural Networks: https://mchirico.github.io/rnn/2017/03/03/RNN.html


英文文獻
1. Y.-H. Tseng, Y.-M. Wang, Y.-I. Lin, 2007, Patent surrogate extraction and evaluation in the context of patent mapping.
2. G. Erkan, D. R. Radev, 2004, LexRank: Graph-based lexical centrality as salience in text summarization.
3. M. Gambhir, V. Gupta, 2017, Recent automatic text summarization techniques: a survey.
4. C.-Y. Lin, 2004, ROUGE:A Package for Automatic Evaluation of Summaries.
5. C.-Y. Lin, 2003, ROUGE: Recall-oriented Understudy for Gisting Evaluation. [Online]. Available: http://haydn.isi.edu/ROUGE/.
6. R. Mihalcea, P. Tarau, 2004, TextRank: Bringing Order into Texts.
7. R. Mihalcea, 2004, Graph-based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization.
8. T. Mikolov, K. Chen, G. Corrado, J. Dean, 2013, Efficient Estimation of Word Representations in Vector Space.
9. L. Page, S. Brin, R. Motwani, et al., 1999, The PageRank Citation Ranking: Bringing Order to the Web.
10. J.-M. Conroy and D.-P. O’Leary, 2001, Text Summarization via Hidden Markov Models, Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), pp. 406-407.
11. G. Murray, S. Renals, and J. Carletta., 2005, Extractive Summarization of Meeting Recordings, Proceedings of the 6th Annual Conference of the International Speech Communication Association (Interspeech), pp. 593-596.
12. J.-J. Kuo and H.-H. Chen., 2008, Multi-document Summary Generation using Informative and Event Words, Journal of ACM Transactions on Asian Language Information Processing, Vol. 7, No.1, pp. 550-557
13. C.-D. Paice, 1990, Constructing Literature Abstracts by Computer Techniques and Prospects, Journal of Information Processing and Management, Vol. 26, No. 1, pp. 171-186.
14. M. Witbrock and V. Mittal, 1999, Ultra Summarization: a Statistical Approach to Generating Highly Condensed Non-extractive Summaries, Proceedings of the 22th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), pp. 315-316.
15. Mani and M.-T. Maybury, 1999, Advances in Automatic Text Summarization, Cambridge: MIT Press.
16. X.-Y. Cai, and W.-J. Li, 2013, Ranking through Clustering: An Integrated Approach to Multi-Document Summarization, IEEE Transactions on Audio, Speech and Language Processing, Vol. 21, No. 7, pp.1424-1433.
17. H.P. Luhn , 1958, The Automatic Creation of Literature Abstracts, IBM Journal of Research and Development, Vol. 2, No. 2, pp.159-165.
18. J. Carbonell and J. Goldstein, 1998, The Use of MMR Diversity-based Reranking for Reordering Documents and Producing Summaries, Proceedings of the 21th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), pp. 335-336.
19. J. Kupiec , 1995, A Trainable Document Summarizer, Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), pp. 68-73.
20. R. Nallapati, 2016, Abstractive text summarization using sequence-to-sequence rnns and beyond. ‎
21. L. Liu, 2017, Generative Adversarial Network for Abstractive Text Summarization.
22. B. Hu, Q. Chen, F. Zhu, 2015, LCSTS: A Large Scale Chinese Short Text Summarization Dataset.
23. G. Salton, C. T. Yu, 1973, On the construction of effective vocabularies for information retrieval.
24. P. Li, W. Lam, L. Bing, Z. Wang, 2017, Deep recurrent generative decoder for abstractive text summarization.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2019-08-01公開。
  • 同意授權瀏覽/列印電子全文服務,於2019-08-01起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信