淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2601201614143900
中文論文名稱 文本推論辨識語言現象分析之研究
英文論文名稱 A Study on Analysis of Linguistic Phenomena for Recognizing Inference in Text
校院名稱 淡江大學
系所名稱(中) 資訊管理學系碩士班
系所名稱(英) Department of Information Management
學年度 104
學期 1
出版年 105
研究生中文姓名 王雅瑢
研究生英文姓名 Ya-Jung Wang
學號 602630484
學位類別 碩士
語文別 中文
口試日期 2016-01-09
論文頁數 68頁
口試委員 指導教授-戴敏育
委員-李鴻璋
委員-陸承志
中文關鍵字 語言現象  文本推論辨識  文本蘊涵  知識基礎  機器學習 
英文關鍵字 Linguistic Phenomena  Recognizing Inference in Text  Textual Entailment  Knowledge-based  Machine Learning 
學科別分類
中文摘要 文本蘊涵辨識,是由兩個文本片段透過系統的處理來決定這個假設片段與另一個文本片段所代表的意義是否有蘊涵關係。雖然過去有相當多的文本蘊涵辨識相關研究,但是並未對語言現象分析用於文本推論的辨識作深入探討。本研究目的為針對語言現象用於文本推論辨識的完整分析。本研究主要透過使用NTCIR-11 RITE-VAL系統驗證子任務所提供的開發資料集與標準資料集,提出辨識語言現象分析用於文本推論辨識的模型與分析。實驗結果顯示,良好的語言現象類別有助於提升文本蘊涵系統的正確率。
英文摘要 Recognizing Textual Entailment (RTE) is composed by two text fragments are processed by system to determine whether the meaning of hypothesis is entailed from another text or not. Although a considerable number of studies have been made on recognizing textual entailment, little is known about the power of linguistic phenomenon for recognizing inference in text. The objective of this paper is to provide a comprehensive analysis of identifying linguistic phenomena for recognizing inference in text (RITE). In this paper, we use datasets from NTCIR-11 RITE-VAL System Validation subtask. We propose a model in System Validation subtask by using development dataset and Standard datasets on an analysis of identifying linguistic phenomena for Recognizing Inference in Text (RITE). The experimental results suggest that well identified linguistic phenomenon category could enhance the accuracy of textual entailment system.
論文目次 目錄
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目的 2
1.4 研究價值 2
1.5 論文章節架構 3
第二章 文獻探討 5
2.1 文本蘊涵推論辨識 5
2.2 文本蘊涵辨識技術 6
2.2.1 語言現象層級的推論 6
2.2.2 句子層級的推論 7
2.2.3 多個句子層級的推論 7
2.2.4 語意架構的推論 7
2.2.5 模型應用 8
2.3 斷詞 9
2.4 機器學習 10
2.5 研究缺口 11
第三章 研究方法與系統架構 12
3.1 研究方法 12
3.2 系統架構 14
3.2.1 主系統 15
3.2.2 特徵選取 17
3.2.3 機器學習應用 18
3.3 資料集 19
3.4 語言現象定義 21
3.5 語言現象分析 33
3.6 本章小結 38
第四章 實驗結果與討論 39
4.1 實驗結果比較 39
4.1.1 特徵值交叉驗證 39
4.1.2 模型的比較 43
4.1.3 SVM實驗數據 45
4.2 特徵值效果比較 49
4.2.1 特徵值與語言現象特徵 49
4.2.2 二十一個特徵值的實驗模型比較 53
4.2.3 使用語言現象之分批實驗模型比較 54
4.3 錯誤分析 55
4.3.1 系統性錯誤 55
4.3.2 平衡資料集與不平衡資料集58
4.4 實驗結果總結 59
第五章 結論與貢獻 60
5.1 結論 60
5.2 研究貢獻 60
5.3 研究限制 61
5.4 未來研究方向 61
參考文獻 62

附錄 65
附錄I. SVM實驗數據 65
附錄II. 否定詞(NEGATION) 66
附錄III. 反義詞(ANTONYM) (IMTKUANTONYM: 16115 PAIRS) 67

圖目錄
圖1. 論文章節架構圖 4
圖2. 中研院CKIP斷詞系統之流程圖 9
圖3. 系統開發方法的生命週期循環圖 13
圖4. 系統架構 (System Architecture) 14
圖5. NTCIR-11 RITE-VAL 繁體中文BC子任務的訓練資料集 15
圖6. NTCIR-11 RITE-VAL 繁體中文BC子任務的訓練資料集 16
圖7. NTCIR-11 RITE-VAL 資料集的例句 17
圖8. NTCIR-11 RITE-VAL 資料集的例句用於CKIP分析的結果 17
圖9. NTCIR-11 RITE-VAL開發資料集,繁體中文 SV-BC 的子任務在前三名模型和語言現象的交叉驗證(581 pairs) 44
圖10. SVM執行畫面 58

表目錄
表1.數字類型的定義與例子 16
表2. 二十一個語意特徵 18
表3. NTCIR11 RITE-VAL SV-MC/BC 開發資料集之分析 (581 pairs) 19
表4. NTCIR11 RITE-VAL SV-MC/BC 標準資料集之分析 (1200 pairs) 20
表5. 開發資料集項目與內容(共581筆,範例顯示5筆資料) 20
表6. 開發資料集項目與內容(共1200筆,範例顯示前5筆資料) 21
表7. NTCIR-11 RITE-VAL中文的28種語言現象 22
表8. 系統驗證任務的開發資料集,在繁體中文SV-BC與MC子任務的語言現象(類別)分析 (581 pairs) 34
表9. 系統驗證任務的標準答案資料集,在繁體中文SV-BC與MC子任務的語言現象(類別)分析 (1200 pairs) 35
表10. NTCIR-11 RITE-VAL 開發資料集在語言現象類別排名之分析 (581 pairs) 36
表11.NTCIR-11 RITE-VAL 標準答案資料集在語言現象類別排名之分析(1200 pairs) 37
表12. 系統驗證的開發資料集在繁體中文SV-BC子任務中,每一個特徵值的交叉驗證實驗結果表現 (581 pairs) 40
表13. 系統驗證的標準答案資料集在繁體中文SV-BC子任務中,每一個特徵值的交叉驗證實驗結果表現 (1200 pairs) 41
表14. 系統驗證的開發資料集與標準答案資料集在繁體中文SV-BC子任務的總和,每一個特徵值的交叉驗證實驗結果表現 (1781 pairs) 42
表15. 三個模型和語言現象的實驗結果表現 (581 pairs) 43
表16. 三個模型和語言現象的實驗結果表現 (1200 pairs) 43
表17. 三個模型和語言現象的實驗結果表現 (1781 pairs) 43
表18. 三個模型加上語言現象的實驗結果表現 (581 pairs) 44
表19. 三個模型加上語言現象的實驗結果表現 (1200 pairs) 44
表20. 三個模型加上語言現象的實驗結果表現 (1781 pairs) 45
表21. 標準資料集與開發資料集以語言現象SVM實驗數據 (範例顯示前10筆資料) 46
表22. 標準資料集與開發資料集28個語言現象類別的編號 47
表23. 開發資料集Model1 (13 Features) SVM實驗數據內容(範例顯示前10筆資料) 48
表24.開發資料集 (每一個特徵值加入語言現象特徵581 pairs) 50
表25. 標準資料集(每一個特徵值加入語言現象特徵,1200 pairs) 51
表26. 開發資料集與標準資料集的總合(特徵值加入語言現象特徵,1781 pairs) 52
表27. 二十個特徵值在各資料集的模型表現 53
表28. 二十個特徵值加入語言現象特徵值在各資料集的模型表現 53
表29. 使用語言現象Inference的模型正確率比較(開發資料集:581pairs) 54
表30. 使用語言現象中矛盾與僅有蘊含關係的模型正確率比較(開發資料集:581pairs) 54
表31. 開發資料集Model1 (14 Features) SVM實驗數據內容(範例顯示前10筆訓練資料) 55
表32. 開發資料集Model1加上語言現象特徵 (14 Features) SVM實驗數據內容(範例顯示前10筆訓練資料) 56
表33. 開發資料集Model1測試資料的答案 (14 Features) SVM實驗數據內容(範例顯示前10筆訓練資料) 56
表34. 開發資料集Model1加上語言現象特徵 (14 Features) SVM實驗數據內容(範例顯示前10筆訓練資料) 57
參考文獻 [1]Bar-Haim, R., Dagan, I., Greental, I., & Shnarch, E. (2007, July). Semantic inference at the lexical-syntactic level. In PROCEEDINGS OF THE NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE (Vol. 22, No. 1, p. 871). Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press; 1999.
[2]Bentivogli, L., Cabrio, E., Dagan, I., Giampiccolo, D., Leggio, M. L., & Magnini, B. (2010, May). Building Textual Entailment Specialized Data Sets: a Methodology for Isolating Linguistic Phenomena Relevant to Inference. In LREC.
[3]Cabrio, E., & Magnini, B. (2011). Towards Component-Based Textual Entailment. Computational Semantics IWCS 2011, 320.
[4]Cabrio, E., & Magnini, B. (2014). Decomposing Semantic Inferences. LiLT (Linguistic Issues in Language Technology), 9.
[5]Condoravdi, C., Crouch, D., De Paiva, V., Stolle, R., & Bobrow, D. G. (2003, May). Entailment, intensionality and text understanding. In Proceedings of the HLT-NAACL 2003 workshop on Text meaning-Volume 9 (pp. 38-45). Association for Computational Linguistics.
[6]Dagan, I., Dolan, B., Magnini, B., & Roth, D. (2010). Recognizing textual entailment: Rational, evaluation and approaches–erratum. Natural Language Engineering, 16(01), 105-105.
[7]De Marneffe, M. C., Rafferty, A. N., & Manning, C. D. (2008, June). Finding Contradictions in Text. In ACL (Vol. 8, pp. 1039-1047).
[8]de Marneffe, M. C., Rafferty, A. R., & Manning, C. D. (2011). Identifying conflicting information in texts. Handbook of Natural Language Processing and Machine Translation: DARPA Global Autonomous Language Exploitation.
[9]Harabagiu, S., Hickl, A., & Lacatusu, F. (2006, July). Negation, contrast and contradiction in text processing. In AAAI (Vol. 6, pp. 755-762).
[10]Magnini, B., & Cabrio, E. (2009). Combining specialized entailment engines. Proceedings of LTC’09.
[11]Matsuyoshi, S., Miyao, Y., Shibata, T., Lin, C. J., Shih, C. W., Watanabe, Y., & Mitamura, T. (2014). Overview of the ntcir-11 recognizing inference in text and validation (rite-val) task. In Proceedings of the 11th NTCIR Conference (pp. 223-232).
[12]Nguyen, H. M., & Shirai, K. (2013). Recognition of Agreement and Contradiction between Sentences in Support-Sentence Retrieval.
[13]Ritter, A., Downey, D., Soderland, S., & Etzioni, O. (2008, October). It's a contradiction---no, it's not: a case study using functional relations. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (pp. 11-20). Association for Computational Linguistics.
[14]Rooney, N., Wang, H., & Taylor, P. S. (2014). An investigation into the application of ensemble learning for entailment classification. Information Processing & Management, 50(1), 87-103.
[15]Sammons, M., Vydiswaran, V. G., & Roth, D. (2010, July). Ask not what textual entailment can do for you... In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (pp. 1199-1208). Association for Computational Linguistics.
[16]Sammons, M., Vydiswaran, V. V., & Roth, D. (2011). Recognizing textual entailment. Multilingual Natural Language Applications: From Theory to Practice. Prentice Hall, Jun.
[17]Shima, H., Kanayama, H., Lee, C. W., Lin, C. J., Mitamura, T., Miyao, Y., ... & Takeda, K. (2011, December). Overview of ntcir-9 rite: Recognizing inference in text. In Proceedings of the 9th NII Test Collection for Information Retrieval Workshop (NTCIR’11) (pp. 291-301).
[18]Toledo, A., Alexandropoupou, S., Chesney, S., Katrenko, S., Klockmann, H., Kokke, P., ... & Winter, Y. (2014). Towards a Semantic Model for Textual Entailment Annotation. Linguistic Issues in Language Technology, 9..
[19]Vanderwende, L., & Dolan, W. B. (2006). What syntax can contribute in the entailment task. In Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Tectual Entailment (pp. 205-216). Springer Berlin Heidelberg.
[20]Watanabe, Y., Mizuno, J., Nichols, E., Narisawa, K., Nabeshima, K., Okazaki, N., & Inui, K. (2012). Leveraging diverse lexical resources for textual entailment recognition. ACM Transactions on Asian Language Information Processing (TALIP), 11(4), 18.
[21]Watanabe, Y., Miyao, Y., Mizuno, J., Shibata, T., Kanayama, H., Lee, C. W., ... & Shima, H. (2013, June). Overview of the Recognizing Inference in Text (RITE-2) at NTCIR-10. In Proceedings of the 10th NTCIR Conference (pp. 385-404).
[22]Weisman, H., Berant, J., Szpektor, I., & Dagan, I. (2012, July). Learning verb inference rules from linguistically-motivated evidence. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (pp. 194-204). Association for Computational Linguistics.
[23]Wu, Y. C. (2013). Integrating statistical and lexical information for recognizing textual entailments in text. Knowledge-Based Systems, 40, 27-35.
[24]Tian, R., Miyao, Y., & Matsuzaki, T. (2014). Logical inference on dependency-based compositional semantics. In Proceedings of ACL (pp. 79-89)..
[25]Roy Bar-Haim, Ido Dagan and Jonathan Berant (2015) "Knowledge-Based Textual Inference via Parse-Tree Transformations", Volume 54, pages 1-57.
[26]Tu, C., & Day, M. Y. (2013, August). Chinese textual entailment with Wordnet semantic and dependency syntactic analysis. In Information Reuse and Integration (IRI), 2013 IEEE 14th International Conference on (pp. 69-74). IEEE.
[27]Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1), 1-47.
[28]Esuli, A., & Sebastiani, F. (2005, October). Determining the semantic orientation of terms through gloss classification. In Proceedings of the 14th ACM international conference on Information and knowledge management (pp. 617-624). ACM.
[29]Malakasiotis, P., & Androutsopoulos, I. (2007, June). Learning textual entailment using SVMs and string similarity measures. In Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing (pp. 42-47). Association for Computational Linguistics.
[30]Soon, W. M., Ng, H. T., & Lim, D. C. Y. (2001). A machine learning approach to coreference resolution of noun phrases. Computational linguistics, 27(4), 521-544.
[31]Blake, C. (2007, June). The role of sentence structure in recognizing textual entailment. In Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing (pp. 101-106). Association for Computational Linguistics.
[32]Fritzke, B. (1994). Growing cell structures—a self-organizing network for unsupervised and supervised learning. Neural networks, 7(9), 1441-1460.
[33]Chang, C. C., & Lin, C. J. (2011). LIBSVM: A library for support vector machines. ACM Transactions on Intelligent Systems and Technology (TIST),2(3), 27.
[34]Tu, C. (2014). Chinese textual entailment with wordnet semantic and dependency syntactic analysis. Tamkang University Department of Information Management Master Program Thesis. 1-72.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2016-02-15公開。
  • 同意授權瀏覽/列印電子全文服務,於2016-02-15起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信