淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2806200715510500
中文論文名稱 運用重複句排除技術於中文文件自動摘要之研究
英文論文名稱 Elimination of Duplicate Sentences in Automatic Summarization of Chinese Documents
校院名稱 淡江大學
系所名稱(中) 資訊管理學系碩士班
系所名稱(英) Department of Information Management
學年度 95
學期 2
出版年 96
研究生中文姓名 陳姿妤
研究生英文姓名 Tzu-Yu Chen
學號 694520346
學位類別 碩士
語文別 中文
口試日期 2007-06-09
論文頁數 49頁
口試委員 指導教授-魏世杰
委員-翁頌舜
委員-呂芳懌
委員-梁德昭
中文關鍵字 自動摘要  TFIDF  相似度  Hownet  重複句排除 
英文關鍵字 Automatic Summarization  TFIDF  Similarity Measure  Duplicate Sentences 
學科別分類 學科別社會科學管理學
學科別社會科學資訊科學
中文摘要 本研究針對中文文件,以節錄的方式自原文中摘要出重要的句子集合。在擷取重要句子的作法上,一般是利用特徵選取的方式來抽取文章中心概念,如以TFIDF法計算詞彙、句子權重;或以考量特殊關鍵詞、提示字、句子位置等指標作為句子重要度評斷的依據。
本研究假設作者於文章寫作時,經常會重複提及欲論述的主題,這些意思相近的句子便容易在抽取文章中心概念的過程中形成高得分的句子集合。因此,本研究希望藉由比對兩句子之間的相似度,過濾摘要結果中資訊重複的句子。在句子相似度的計算上,除了做詞彙共同出現的布林比對外,也希望能進一步考量同義詞的比對,因此,我們引入中文詞語義知識庫「知網」,透過知網中對詞彙的語義定義,來進行同義詞的相似度計算。
實驗結果發現,在擷取文中重要句子的作法上,使用TFIDF為基礎的詞彙權重計算,結合句子與文章標題句之間的相似度特徵,可提升摘要結果的平均精確度約7%。於摘要結果中,利用Jaccard相似度,結合Hownet的同義詞觀念,以排除摘要重複句,亦可達到提升摘要精確度的效果。
英文摘要 This is a research on automatic summarization of Chinese documents. We try to extract important sentences from documents based on such sentence features as sum of TFIDF weights in a sentence or the location of the sentence in a document.
We assume that the important sentences thus extracted might still contain redundant information as authors tend to repeat their main ideas several times in documents. This redundancy would preclude the inclusion of other important sentences under a given summary compression rate. To solve this problem, we propose a sentence similarity measure to filter out duplicate sentences in a summary. Our proposed similarity measure takes into account the co-occurrence of exact and synonym words in two sentences. To compute the similarity of synonym words, Hownet, a Chinese equivalent of English lexical database WordNet, is introduced and implemented.
The result shows that a combined sentence feature using sum of TFIDF weights as well as similarity with the title sentence can improve the precision by 7%. For elimination of duplicate sentences, a Jaccard- and Hownet-based similarity measure can also give an improved precision in the automatic summarization results.
論文目次 目錄
1. 緒論 1
1.1 研究動機 1
1.2 論文架構 1
2. 文獻探討 3
2.1 文件自動摘要相關研究 3
2.1.1 摘要種類 3
2.1.2 自動摘要方法 3
2.1.3 句子相似度計算 4
2.1.4 摘要評估 5
2.2 知網 6
2.3 詞彙語義比對 7
3. 研究方法與系統架構 10
3.1 系統架構圖 10
3.2 前處理 11
3.3 句子重要度計算 12
3.4 重複句排除 16
4. 系統評估 20
4.1 資料集 20
4.2 答案摘要句製作 20
4.3 系統參數選擇 22
4.3.1 系統摘要句重要度公式 22
4.3.2 基於概念詞的句子相似度公式 22
4.3.3 重複句認定的句子相似度門檻值 23
4.4 重複句排除實驗 24
4.5 評估架構圖 26
5. 實驗結果與分析 28
5.1 系統摘要句重要度公式 28
5.2 基於概念詞的句子相似度公式 31
5.3 重複句認定的句子相似度門檻值 33
5.4 重複句排除實驗結果 34
6. 結論與未來發展 45
6.1 結論 45
6.2 未來發展 45
參考文獻 47
圖目錄
圖1. 系統架構圖 10
圖2. 評估架構圖 26
圖3. Dice函數、Jaccard函數與Cosine函數差異分析圖 32
表目錄
表1. 車的概念 7
表2. 不同系統摘要句重要度公式 計算法組合下的平均摘要精確度(%) (文章數為280) 28
表3. ANOVA變異數分析─檢驗特徵結合成效的顯著性 29
表4. 9組文章集採用公式7a及4b,在壓縮率=20%下的平均摘要精確度(%) (各組文章數皆為30,文章不重複) 30
表5. 三種基於概念詞的句子相似度公式Simnh(s x , s y )計算法下的平均摘要精確度(%) (文章數為280) 31
表6. 在系統摘要句及答案摘要句皆有作重複句排除下不同重複句門檻值Tdup的平均摘要精確度(%) (文章數為35) 33
表7. 壓縮率為20%下的摘要精確度(%) (文章數為35) 34
表8. 壓縮率為normal下的摘要精確度(%) (文章數為35) 35
表9. 進行重複句排除的文章摘要精確度(%) 37
表10. ANOVA變異數分析─檢驗重複句排除成效的顯著性 37
表11. 不同壓縮率下的系統摘要句數比較(文章數為35) 38
表12. 壓縮率為20%下的平均摘要精確度(%) (文章數為35) 40
表13. 壓縮率為normal下的平均摘要精確度(%) (文章數為35) 40
表14. 重複句排除實例說明 41

參考文獻 [1] CKIP Autotag 中央研究院詞庫小組,取自http://godel.iis.sinica.edu.tw/CKIP/ws,2003。
[2] 王永成、劉功申、劉傳漢、胡佩華、孫展,“論文本的自動摘要”,上海交通大學電腦科學技術系,2000。
[3] 李彬、劉挺、秦兵、李生,“基於語義依存的漢語句子相似度計算”,哈爾濱工業大學信息檢索研究室論文,2003。
[4] 徐銘忠,“植基於本體論之文件摘要系統之研究-以中文股市新聞為例”,東海大學資訊工程與科學系碩士論文,2004。
[5] 陳世偉,“植基於功能詞及知網架構之軟體搜尋系統”,淡江大學資訊管理學系碩士論文,2004。
[6] 陳光華,“網際網路服務的過去現在與未來”,國立成功大學圖書館館刊,6,1-7,2000。
[7] 曾元顯,“中文手機新聞簡訊自動摘要”,第十六屆自然語言與語音處理研討會,台北,頁177-189,2004年9月2-3日。
[8] 楊存一、邱立豐,“TFIDF與GBP方法於重要句子擷取績效評估”,雲林科技大學資訊管理學系碩士論文,2001。
[9] 董振東、董強,知網,取自http://keenage.com,1999。
[10] 劉政璋、葉鎮源,“以概念分群為基礎之新聞事件自動摘要”,交通大學資訊科學系碩士論文,2005。
[11] 劉群、李建素,“基於知網的詞彙語義相似度計算”,第三屆漢語詞彙語義研討會,2001。
[12] 謝文泰、陳文鋕、張履平,“以句子資訊量來產生文件摘要之模式”,第七屆人工智慧與應用研討會(TAAI2002)論文集,C4-7,台北,2002。
[13] Chen, F., Han, K. and Chen, G., "An Approach to Sentence-Selection-Based Text Summarization", IEEE Region 10 Conference on Computers, Communications, Control and PowerEngineering, (TENCON '02) Volume1, Page(s):489-493, Oct. 2002.
[14] Edmundson, H.P., "New methods in automatic abstracting extracting", Journal of the Association for Computing Machinery, 16(2):264-285, 1969.
[15] Johns, K.S., "A Statistical Interpretation of Term Specificity and its Application in Retrieval", Journal of Documentation, 28(1): 11-20, March 1972.
[16] Larocca-Neto, J., Freitas, A.A. and Kaestner, C.A. A., "Automatic Text Summarization using a Machine Learning Approach", In Proceedings of 16th Brazilian Symposium on Artificial Intelligence, 2002:205-215, 2002.
[17] Luhn, H.P., "The Automatic Creation of Literature Abstracts", IBM Journal of Research and Development, 2(2):159-165, 1958.
[18] Mani, I. and Bloedorn, E., "Machine Learning of Generic and User-focused Summarization", In Proceedings of Fifteenth National Conference on Artificial Intelligence, AAAI-98:821-826, 1998.
[19] McDonald, D. and Chen, H.C., "Using Sentence-Selection Heuristics to Rank Text Segment in TXTRACTOR", Proceedings of the second ACM/IEEE-CS joint conference on Digital libraries Portland, Oregon, USA, Page(s): 28-35, 2002.
[20] Ohsawa, Y., Benson, N. E. and Yachida, M., "KeyGraph: Automatic Indexing by Co-occurrence Graph based on Building Construction Metaphor", Proceedings of Advanced Digital Library Conference, 1998.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2007-07-06公開。
  • 同意授權瀏覽/列印電子全文服務,於2007-07-06起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信