§ 瀏覽學位論文書目資料
系統識別號 U0002-0809202316203200
DOI 10.6846/tku202300651
論文名稱(中文) 基於BERT、WordNet、N-gram技術之英語適性學習
論文名稱(英文) English Adaptive Learning Based on BERT, WordNet, and N-gram Techniques
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 111
學期 2
出版年 112
研究生(中文) 蔡幸儒
研究生(英文) Hsing-Ju Tsai
學號 611410043
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2023-06-12
論文頁數 46頁
口試委員 口試委員 - 廖文華(whliao@ntub.edu.tw)
指導教授 - 張志勇(cychang@mail.tku.edu.tw)
口試委員 - 林怡弟(118589@o365.tku.edu.tw)
共同指導教授 - 郭經華(chkuo@mail.tku.edu.tw)
關鍵字(中) 深度學習
人工智慧
自然語言處理
NLP
文本擴增
BERT模型
n-gram
WordNet
關鍵字(英) Deep learning
artificial intelligence
natural language processing
NLP
text augmentation
BERT model
n-gram
WordNet
第三語言關鍵字
學科別分類
中文摘要
推薦世界名著給英語學習者,其內容的生動活潑,不僅可引起學習者的興趣,更可讓學習者抱持著瞭解劇情的期待而持續閱讀。然而,世界名著的用字,可能過難,不適合學習者的詞彙能力。本論文擬以AI的技術,依照針對使用者的詞彙能力,將世界名著所使用過難的詞彙替換,並保持原有著作的語意,如此便能將世界名著推薦給不同詞彙程度的學習者來進行適性學習,在具有學習動機的前題下,增強其詞彙能力。本論文在第一階段,透過自然語言的技術,建構一個BERT模型,並自動生成使用不同等級詞彙的語句,以訓練BERT模型,透過此模型,以瞭解使用者詞彙能力及世界名著的用詞等級分佈。接著,在第二階段中,本論文透過上述的詞彙分佈,決定將世界名著較難、應被替換的詞彙找出。在第三階段中,本論文以BERT mask模型來決定出替換較難詞彙的候選詞彙。為了能夠維持語意、文句的順暢度及適合使用者的閱讀能力,在第四階段中,本論文使用多種指標,包含n-gram、embedding 相似度、WordNet及等級轉換比例等多種權重,從候選詞彙中來選出替換的詞彙。實驗顯示,本論文所改寫的世界名著,在 Precision、Recall、F1-score等面向,能有較好的表現。
英文摘要
Recommendation of classic world literature works for English language learners is essential for maintaining engaging and lively content that captures learners' interest and sustains their desire to continue reading as they anticipate unfolding storylines. However, the advanced vocabulary employed in these literary masterpieces may pose a challenge for learners with varying lexical abilities. This paper proposes the application of AI technology to address this issue by replacing complex vocabulary from world literature while preserving the original works' intended meanings. This approach enables the recommendation of renowned literary works to learners at different vocabulary proficiency levels, facilitating adaptive learning and enhancing their lexical skills, given a foundation of learning motivation.
In the first phase of this study, a BERT model is constructed using natural language techniques to automatically generate sentences utilizing varying levels of vocabulary. These sentences are employed to train the BERT model and gain insights into users' lexical abilities and the distribution of vocabulary levels within classic world literature. In the subsequent phase, based on the determined vocabulary distribution, challenging and replaceable vocabulary from world literature is identified. The third phase employs the BERT mask model to select candidate vocabulary for replacing difficult terms. To ensure semantic coherence, sentence fluency, and alignment with users' reading capabilities, the fourth phase integrates multiple indicators, including n-grams, embedding similarity, WordNet, and level conversion ratios, to select the most suitable replacements from the candidate vocabulary.
Experimental results demonstrate that the world literature adaptations produced in this paper exhibit favorable performance in metrics such as "Precision," "Recall," and "F1"-score.
第三語言摘要
論文目次
目錄
第一章 緒論	1
第二章 文獻探討	5
2-1 詞彙簡化技術	5
2-2文章改寫	9
第三章 前景知識	13
3-1 利用NLTK英文斷詞斷句	13
3-2 利用TF-IDF找出常用詞	14
3-3 自然語言模型	16
3-4 利用BERT模型做資料擴增	19
第四章 研究方法	22
4-1 問題描述	22
4-1-1 情境描述	22
4-1-2 目標	22
4-2系統架構	23
4-2-1 資料收集與前處理	25
4-2-2 模型訓練	26
4-2-3 利用自製演算法找出使用者或是世界名著的等級	30
4-2-4 利用自製演算法找出各級單詞需要的機率	31
第五章 實驗分析	33
5-1 環境設置	33
5-2 數據集	33
5-3 實驗結果	34
第六章 結論	44
6-1 已完成工作	44
6-2 未來工作	44
參考文獻	45

 
圖目錄
圖 1 自然語言BERT模型預訓練階段(取自研究[4])	2
圖 2 掩碼語言模型( )(取自研究[6])	6
圖 3 改良BART模型的SimpleBART模型(取自研究[8])	7
圖 4 改良傳統做法的LSBERT模型(取自研究[2])	9
圖 5 利用C-POS來訓練上下文感知詞性學習系統(取自研究[12])	11
圖 6 利用NLTK做詞性標註、斷詞斷句	14
圖 7 利用TF-IDF找出常用詞	16
圖 8 自然語言BERT模型的4種作法(取自研究[4])	19
圖 9 利用BERT模型做資料擴增	21
圖 10 整體系統架構	25
圖 11 資料前處理	26
圖 12 使用BERT模型維持語意	27
圖 13 使用n-gram維持文章流暢度	28
圖 14 利用cos similarity找出最相似的單詞	28
圖 15 利用WordNet Hop數找出距離最短的單詞	29
圖 16 單詞等級分數的計算	30
圖 17 五種作法作加權	30
圖 18 利用自製演算法找出等級	31
圖 19 文章單詞難度調整比例統計	34
圖 20 權重調整	35
圖 21 混淆矩陣	36
圖 22 統計Precision、Recall、F1-score各級的值	36
圖 23 統計Precision的影響	37
圖 24 統計Recall的影響	37
圖 25 統計F1-score的影響	38
圖 26 統計好書數量對Precision的影響	39
圖 27 統計好書數量對Recall的影響	39
圖 28 統計好書數量對F1-score的影響	39
圖 29 統計不同讀物對Precision的影響	40
圖 30 統計不同讀物對Recall的影響	41
圖 31 統計不同讀物對F1-score的影響	41
圖 32 比較使用者等級及書的主要等級之Precision	42
圖 33 比較使用者等級及書的主要等級之Recall	43
圖 34 比較使用者等級及書的主要等級之F1-score	43

 
表目錄
表1 英語適性學習的比較	12
參考文獻
[1]	A. L. Gorin, S. E. Levinson, L. G. Miller, A. N. Gertner, A. Ljolje and E. R. Goldm, ”On Adaptive Acquisition of Language,” IEEE International Conference on Acoustics, Speech, and Signal Processing, 06 August 2002
[2]	Jipeng Qiang, Yun Li, Yi Zhu, Yunhao Yuan, Yang Shi, “LSBert Lexical Simplification Based on BERT,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 29, 09 September 2021
[3]	Daniele Schicchi, Giovanni Pilato, Giosué Lo Bosco, “Attention Based Model for Evaluating the Complexity of Sentences in English Language,” IEEE 2020 IEEE 20th Mediterranean Electrotechnical Conference ( MELECON), 15 July 2020
[4]	J. Devlin, M. W. Chang, K. Lee, K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019, vol. 1 (Long and Short Papers)
[5]	Fernando Alva-Manchego, Louis Martin, Antoine Bordes, Carolina Scarton, Benoît Sagot, Lucia Specia, “ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations,“ arxiv, 1 May 2020
[6]	Minki Kang, Moonsu Han, Sung Ju Hwang, ”Neural Mask Generator: Learning to Generate Adaptive Word Maskings for Language Model Adaptation,” arxiv, 6 Oct 2020
[7]	Oscar M Cumbicus-Pineda, Iker Gutiérrez-Fandiño, Itziar Gonzalez-Dios, Aitor Soroa, ”Noisy Channel for Automatic Text Simplification,” arxiv, 6 Nov 2022
[8]	Renliang Sun, Wei Xu, Xiaojun Wan, ”Teaching the Pre-trained Model to Generate Simple Texts for Text Simplification,” arxiv, 21 May 2023
[9]	Mohammad Dehghan, Dhruv Kumar, Lukasz Golab, ”GRS: Combining Generation and Revision in Unsupervised Sentence Simplification,” arxiv, 22 Mar 2022
[10]	Siddharth Karamcheti, Dorsa Sadigh, Percy Liang, "Learning Adaptive Language Interfaces through Decomposition," arxiv, 11 Oct 2020
[11]	Neha Srikanth, Junyi Jessy Li, ”Elaborative Simplification: Content Addition and Explanation Generation in Text Simplification,” arxiv, 20 Oct 2020
[12]	Shazia Maqsood , Abdul Shahid , Fakhra Nazar , Muhammad Asif , Muhammad Ahmad , Manuel Mazzara, ”C-POS: A Context-Aware Adaptive Part-of-Speech Language Learning Framework,” IEEE Access Vol. 8, 10 February 2020
論文全文使用權限
國家圖書館
不同意無償授權國家圖書館
校內
校內紙本論文立即公開
電子論文全文不同意授權
校內書目立即公開
校外
不同意授權予資料庫廠商
校外書目立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信