系統識別號 | U0002-0809202316203200 |
---|---|
DOI | 10.6846/tku202300651 |
論文名稱(中文) | 基於BERT、WordNet、N-gram技術之英語適性學習 |
論文名稱(英文) | English Adaptive Learning Based on BERT, WordNet, and N-gram Techniques |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 資訊工程學系碩士班 |
系所名稱(英文) | Department of Computer Science and Information Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 111 |
學期 | 2 |
出版年 | 112 |
研究生(中文) | 蔡幸儒 |
研究生(英文) | Hsing-Ju Tsai |
學號 | 611410043 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2023-06-12 |
論文頁數 | 46頁 |
口試委員 |
口試委員
-
廖文華(whliao@ntub.edu.tw)
指導教授 - 張志勇(cychang@mail.tku.edu.tw) 口試委員 - 林怡弟(118589@o365.tku.edu.tw) 共同指導教授 - 郭經華(chkuo@mail.tku.edu.tw) |
關鍵字(中) |
深度學習 人工智慧 自然語言處理 NLP 文本擴增 BERT模型 n-gram WordNet |
關鍵字(英) |
Deep learning artificial intelligence natural language processing NLP text augmentation BERT model n-gram WordNet |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
推薦世界名著給英語學習者,其內容的生動活潑,不僅可引起學習者的興趣,更可讓學習者抱持著瞭解劇情的期待而持續閱讀。然而,世界名著的用字,可能過難,不適合學習者的詞彙能力。本論文擬以AI的技術,依照針對使用者的詞彙能力,將世界名著所使用過難的詞彙替換,並保持原有著作的語意,如此便能將世界名著推薦給不同詞彙程度的學習者來進行適性學習,在具有學習動機的前題下,增強其詞彙能力。本論文在第一階段,透過自然語言的技術,建構一個BERT模型,並自動生成使用不同等級詞彙的語句,以訓練BERT模型,透過此模型,以瞭解使用者詞彙能力及世界名著的用詞等級分佈。接著,在第二階段中,本論文透過上述的詞彙分佈,決定將世界名著較難、應被替換的詞彙找出。在第三階段中,本論文以BERT mask模型來決定出替換較難詞彙的候選詞彙。為了能夠維持語意、文句的順暢度及適合使用者的閱讀能力,在第四階段中,本論文使用多種指標,包含n-gram、embedding 相似度、WordNet及等級轉換比例等多種權重,從候選詞彙中來選出替換的詞彙。實驗顯示,本論文所改寫的世界名著,在 Precision、Recall、F1-score等面向,能有較好的表現。 |
英文摘要 |
Recommendation of classic world literature works for English language learners is essential for maintaining engaging and lively content that captures learners' interest and sustains their desire to continue reading as they anticipate unfolding storylines. However, the advanced vocabulary employed in these literary masterpieces may pose a challenge for learners with varying lexical abilities. This paper proposes the application of AI technology to address this issue by replacing complex vocabulary from world literature while preserving the original works' intended meanings. This approach enables the recommendation of renowned literary works to learners at different vocabulary proficiency levels, facilitating adaptive learning and enhancing their lexical skills, given a foundation of learning motivation. In the first phase of this study, a BERT model is constructed using natural language techniques to automatically generate sentences utilizing varying levels of vocabulary. These sentences are employed to train the BERT model and gain insights into users' lexical abilities and the distribution of vocabulary levels within classic world literature. In the subsequent phase, based on the determined vocabulary distribution, challenging and replaceable vocabulary from world literature is identified. The third phase employs the BERT mask model to select candidate vocabulary for replacing difficult terms. To ensure semantic coherence, sentence fluency, and alignment with users' reading capabilities, the fourth phase integrates multiple indicators, including n-grams, embedding similarity, WordNet, and level conversion ratios, to select the most suitable replacements from the candidate vocabulary. Experimental results demonstrate that the world literature adaptations produced in this paper exhibit favorable performance in metrics such as "Precision," "Recall," and "F1"-score. |
第三語言摘要 | |
論文目次 |
目錄 第一章 緒論 1 第二章 文獻探討 5 2-1 詞彙簡化技術 5 2-2文章改寫 9 第三章 前景知識 13 3-1 利用NLTK英文斷詞斷句 13 3-2 利用TF-IDF找出常用詞 14 3-3 自然語言模型 16 3-4 利用BERT模型做資料擴增 19 第四章 研究方法 22 4-1 問題描述 22 4-1-1 情境描述 22 4-1-2 目標 22 4-2系統架構 23 4-2-1 資料收集與前處理 25 4-2-2 模型訓練 26 4-2-3 利用自製演算法找出使用者或是世界名著的等級 30 4-2-4 利用自製演算法找出各級單詞需要的機率 31 第五章 實驗分析 33 5-1 環境設置 33 5-2 數據集 33 5-3 實驗結果 34 第六章 結論 44 6-1 已完成工作 44 6-2 未來工作 44 參考文獻 45 圖目錄 圖 1 自然語言BERT模型預訓練階段(取自研究[4]) 2 圖 2 掩碼語言模型( )(取自研究[6]) 6 圖 3 改良BART模型的SimpleBART模型(取自研究[8]) 7 圖 4 改良傳統做法的LSBERT模型(取自研究[2]) 9 圖 5 利用C-POS來訓練上下文感知詞性學習系統(取自研究[12]) 11 圖 6 利用NLTK做詞性標註、斷詞斷句 14 圖 7 利用TF-IDF找出常用詞 16 圖 8 自然語言BERT模型的4種作法(取自研究[4]) 19 圖 9 利用BERT模型做資料擴增 21 圖 10 整體系統架構 25 圖 11 資料前處理 26 圖 12 使用BERT模型維持語意 27 圖 13 使用n-gram維持文章流暢度 28 圖 14 利用cos similarity找出最相似的單詞 28 圖 15 利用WordNet Hop數找出距離最短的單詞 29 圖 16 單詞等級分數的計算 30 圖 17 五種作法作加權 30 圖 18 利用自製演算法找出等級 31 圖 19 文章單詞難度調整比例統計 34 圖 20 權重調整 35 圖 21 混淆矩陣 36 圖 22 統計Precision、Recall、F1-score各級的值 36 圖 23 統計Precision的影響 37 圖 24 統計Recall的影響 37 圖 25 統計F1-score的影響 38 圖 26 統計好書數量對Precision的影響 39 圖 27 統計好書數量對Recall的影響 39 圖 28 統計好書數量對F1-score的影響 39 圖 29 統計不同讀物對Precision的影響 40 圖 30 統計不同讀物對Recall的影響 41 圖 31 統計不同讀物對F1-score的影響 41 圖 32 比較使用者等級及書的主要等級之Precision 42 圖 33 比較使用者等級及書的主要等級之Recall 43 圖 34 比較使用者等級及書的主要等級之F1-score 43 表目錄 表1 英語適性學習的比較 12 |
參考文獻 |
[1] A. L. Gorin, S. E. Levinson, L. G. Miller, A. N. Gertner, A. Ljolje and E. R. Goldm, ”On Adaptive Acquisition of Language,” IEEE International Conference on Acoustics, Speech, and Signal Processing, 06 August 2002 [2] Jipeng Qiang, Yun Li, Yi Zhu, Yunhao Yuan, Yang Shi, “LSBert Lexical Simplification Based on BERT,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 29, 09 September 2021 [3] Daniele Schicchi, Giovanni Pilato, Giosué Lo Bosco, “Attention Based Model for Evaluating the Complexity of Sentences in English Language,” IEEE 2020 IEEE 20th Mediterranean Electrotechnical Conference ( MELECON), 15 July 2020 [4] J. Devlin, M. W. Chang, K. Lee, K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019, vol. 1 (Long and Short Papers) [5] Fernando Alva-Manchego, Louis Martin, Antoine Bordes, Carolina Scarton, Benoît Sagot, Lucia Specia, “ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations,“ arxiv, 1 May 2020 [6] Minki Kang, Moonsu Han, Sung Ju Hwang, ”Neural Mask Generator: Learning to Generate Adaptive Word Maskings for Language Model Adaptation,” arxiv, 6 Oct 2020 [7] Oscar M Cumbicus-Pineda, Iker Gutiérrez-Fandiño, Itziar Gonzalez-Dios, Aitor Soroa, ”Noisy Channel for Automatic Text Simplification,” arxiv, 6 Nov 2022 [8] Renliang Sun, Wei Xu, Xiaojun Wan, ”Teaching the Pre-trained Model to Generate Simple Texts for Text Simplification,” arxiv, 21 May 2023 [9] Mohammad Dehghan, Dhruv Kumar, Lukasz Golab, ”GRS: Combining Generation and Revision in Unsupervised Sentence Simplification,” arxiv, 22 Mar 2022 [10] Siddharth Karamcheti, Dorsa Sadigh, Percy Liang, "Learning Adaptive Language Interfaces through Decomposition," arxiv, 11 Oct 2020 [11] Neha Srikanth, Junyi Jessy Li, ”Elaborative Simplification: Content Addition and Explanation Generation in Text Simplification,” arxiv, 20 Oct 2020 [12] Shazia Maqsood , Abdul Shahid , Fakhra Nazar , Muhammad Asif , Muhammad Ahmad , Manuel Mazzara, ”C-POS: A Context-Aware Adaptive Part-of-Speech Language Learning Framework,” IEEE Access Vol. 8, 10 February 2020 |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信