§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0103201706092700
DOI 10.6846/TKU.2017.00003
論文名稱(中文) 中文新聞自動摘要產生系統
論文名稱(英文) Automatically Generate Abstract for Chinese News
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 1
出版年 106
研究生(中文) 莊秉哲
研究生(英文) Ping-Che Chuang
學號 603410563
學位類別 碩士
語言別 繁體中文
第二語言別 英文
口試日期 2017-01-11
論文頁數 59頁
口試委員 指導教授 - 徐郁輝
委員 - 陳伯榮
委員 - 趙景明
關鍵字(中) 自動摘要
中文斷詞
網路新聞
資訊檢索
大數據
關鍵字(英) Automatic Abstract
Chinese Word Segmentation
Network News
Information Retrieval
Big Data
第三語言關鍵字
學科別分類
中文摘要
隨著網際網路的蓬勃發展,瀏覽新聞媒體網站、線上閱讀新聞已成為許多民眾上網的主要活動,但每天都有大量的新聞資料產生,已經造成資料氾濫的情形。讀者通常只會選擇重要或感興趣的新聞閱讀,其他新聞至多只會看看標題就帶過去了。這些被草草帶過的新聞裡面或許會有讀者想知道的資訊,但可能會因為標題下的不夠好而沒有被讀者閱讀。將不同新聞網站的文章保存,並從冗長的文章自動概括出簡潔的摘要,就可以為讀者節省大量的閱讀時間。
本論文提出一個能自動收集並歸納出中文新聞摘要的方法,其步驟是先把網站上的新聞標題、類別和內文擷取下來,再利用中文斷詞技術以自行定義的詞彙資料庫為基準來進行分詞斷句,然後使用資訊檢索的加權技術來找出文章中的專有名詞和關鍵字,並以句子為單位,算出句子的權重。接著以文章標題的詞彙為指標,找出句子的顯要因素值。最後將兩者進行加總算出新的句子權重值,即可進行重要句子擷取的作業,依照權重值的大小按照文章順序來對句子做排序,以產生中文新聞自動摘要。
英文摘要
As the development of the internet grows rapidly, browsing news media website and online news have been the main activity for most people. Furthermore, news release everyday massively, which causes the overflowing of information. Readers generally read the headlines or the topics which they are interested in. They would only read the title of other news at most. Those news ignored by readers at first glance might contain some information that readers want
to know; however, the titles might be unappealing for public therefore the articles are not read. In summarize, if the articles from different news media are saved, and the brief summaries are automatic abstracted, it would be possible to gain more time for readers efficiently.

This paper put forward a method can collect and generalize Chinese news abstract automatically. The steps are capturing the news title, category, and content on the internet, and using Chinese word segmentation technique to segment the words by standard from lexical database which is self-defined. Furthermore, using weighted technique for information retrieval to find proper names and keywords; by unit of sentence, calculates the weight of each sentence. Moreover,find the significance factor by using the title of the article as an index. Finally, summarize both of them to get the new sentence weight to continue the retrieve of the key sentence. According to the weight of sentence and the order in the article, an abstract of Chinese news is generated automatically.
第三語言摘要
論文目次
目錄
Acknowledgements i
論文提要ii
Abstract iii
1 緒論 1
1.1 研究背景. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 研究目的. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 論文架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 相關研究 4
2.1 自動摘要(Automatic Abstract) . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 中文自動斷詞(Automatic Segmentation Of Chinese Words) . . . . . . . . . . 5
2.3 TF-IDF(Term Frequency–Inverse Document Frequency) . . . . . . . . . . . . 5
2.4 大數據(Big Data) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.5 R 語言(R Language) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 系統需求分析 7
3.1 系統架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 功能需求. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4 研究方法 10
4.1 系統環境建置. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.1.1 R 語言介紹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.1.2 RStudio 介紹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.1.3 RStudio 環境建置. . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.2 網路中文新聞爬蟲階段. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2.1 搜尋與擷取網頁網址. . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.2.2 網頁資料剖析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2.3 擷取網頁內容. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.3 資料前置處理階段. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.3.1 新聞文章資料清理. . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.3.2 中文文章斷句處理. . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3.3 Jieba 中文斷詞. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4 自動摘要處理階段. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.4.1 句子重要度計算(TF-IDF、題名摘要法) . . . . . . . . . . . . . . . 32
4.4.2 重要句子擷取. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5 系統實作 38
5.1 實驗環境. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2 實驗過程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6 結論與未來方向 48
參考文獻 49
A 英文論文 51

圖目錄
3.1 系統架構流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.1 R 語言. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2 Rstudio 介面. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3 Rstudio Global Options 環境. . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4 New R Markdown File . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.5 網路中文新聞爬蟲流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.6 新聞網站. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.7 新聞網站資料表. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.8 聯合新聞html 架構圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.9 風傳媒html 架構圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.10 蘋果新聞html 架構圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.11 儲存標題、類別、內文欄位的html 節點(蘋果新聞) . . . . . . . . . . . . . 18
4.12 蘋果新聞網頁內容. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.13 資料前置處理流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.14 蘋果新聞標題欄位. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.15 蘋果新聞內文欄位(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.16 蘋果新聞內文欄位(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.17 蘋果新聞內文欄位(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.18 蘋果新聞內文欄位(4) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.19 清理過的新聞文章內容. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.20 新聞自動斷句結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.21 Jieba 演算法流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.22 Trie 樹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.23 DAG 有向無環流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.24 隱馬爾可夫模型流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.25 新聞文章斷詞結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.26 自動摘要處理流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.27 詞彙權重值(TF-IDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.28 句子權重值(TF-IDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.29 新聞標題斷詞. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.30 句子權重值(題名摘要法) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

表目錄
3.1 系統功能需求表. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.1 網路新聞使用的標點符號. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2 自定義詞彙資料庫. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.1 擷取的新聞範例資料. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 移除標題點閱次數. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.3 移除Javascript Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.4 移除內文前後多餘空白. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.5 移除內文的空白與換行符號並連接句子. . . . . . . . . . . . . . . . . . . . 41
5.6 新聞斷句結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.7 Jieba 斷詞結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.8 句子權重值(TF-IDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.9 句子權重值(TM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.10 句子權重值(SWV) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.11 摘要候選句. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
參考文獻
[1] 維基百科, https://zh.wikipedia.org/wiki/.
[2] 台灣-偶像劇場, http://dorama.info/tw/.
[3] 蘋果日報, http://www.appledaily.com.tw, 2016.10.20.
[4] 許桓瑜, “長句斷詞法和遺傳演算法對新聞分類的影響”, in 淡江大學資訊工程學系
碩士班論文, 2012.
[5] 黃仁鵬、張貞瑩, “運用詞彙權重技術於自動文件摘要之研究”, in 中華民國資訊管
理學報, 第二十一卷, 第四期, 2014.
[6] 黃純敏、楊純一、邱立豐, “Tfidf 與gbp 方法於重要句子擷取績效評估”, in 國立
雲林科技大學資訊管理研究所碩士論文, 2002.
[7] D Das and M. A.F, “A survey on automatic text summarization”, in Literature Survey
for the Language and Statistics II course at CMU, Vol. 4, 2007.
[8] P. N. Fung, “Using word signature features for terminology translation from large corpora”,
in Columbia University PhD thesis, 1997.
[9] X. Huang, Y. Ariki, and M. Jack, “Hidden markov models for speech recognition”, in
Edinburgh: Edinburgh University Press, 1990
[10] Jieba chinese text segmentation, https://github.com/fxsjy/jieba, last accessed
Oct 2016.
[11] H. Luhn, “The automatic creation of literature abstracts”, in IBM Journal of Research
and Development,20(2), 2014.
[12] Rstudio, https://www.rstudio.com/, last accessed Oct 2016.
[13] Salton, Gerard, and Buckley, “Term-weighting approaches in automatic text retrieval”,
in Information Processing Management,24(5), 1988.
[14] G. Salton and M. M.J, “Introduction to modern information retrieval”, in McGraw-HIII
Book company, 1983.
[15] R. Sproat and C. Shih, “A statistical method for finding word boundaries in chinese text”,
in Computer Processing of Chinese Oriental Language, vol. 4, No. 4, 1990.
[16] R. Sproat, C. Shih, W. Gale, and N. Chang, “A stochastic finite-state word-segmentation
algorithm for chinese”, in Computational Linguistics, vol. 22, No. 3, 1996.
[17] Wiki ”tf-idf”, https://zh.wikipedia.org/wiki/TF-IDF, last accessed Oct 2016.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信