§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0408201023510300
DOI 10.6846/TKU.2010.00104
論文名稱(中文) 可讀性分析在特徵選擇上作探討與研究
論文名稱(英文) On the Study of Feature Selection for Readability Analysis
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 98
學期 2
出版年 99
研究生(中文) 雷珵麟
研究生(英文) Chin-Lin Lei
學號 697410768
學位類別 碩士
語言別 繁體中文
第二語言別 英文
口試日期 2010-06-29
論文頁數 56頁
口試委員 指導教授 - 郭經華
委員 - 陳孟彰
委員 - 楊接期
委員 - 郭經華
委員 - 蔡憶佳
關鍵字(中) 可讀性分析
特徵選取
詞性標記
線性內插法
關鍵字(英) Readability Analysis
Features Selection
POS Tagging
Linear Interpolation
第三語言關鍵字
學科別分類
中文摘要
隨者網路的發達,我們可以在各大英文教學網站取得學習的閱讀資料,這些閱讀資料的難易度都是由該網站的負責人所定義的,對於其他沒有定義的資料就不知它的閱讀難度,所以我們要找出一個可以區分文章難易程度的方法,讓學習者找出適合自己的閱讀教材。
  本論文為英語為第二外語的使用者找出一些可以分析英語文章難易度的特徵,如句子長度、單字、文法等因素,並把這些特徵結合用以分析兩篇閱讀文章彼此之間的難易度差距,方便讓學習者找出適合自己程度的閱讀資料,以達到學習的效果。本研究和以往相關文獻的差異在於多了文法分析,以往的研究大部分都在於用單字來分辨難度,在此我們利用POS Tagger來分析每句句子的詞性,接著再對句子作切割以找出可以辨別文章可讀性難易度差異的文法因素,最後在和上述的特徵作合併以計算兩篇文章的難度差距。
英文摘要
As the capability of the internet is growing, we can get reading resources for learning English from popular websites. The readability of these reading resources was confirmed by the person in charge of these websites, but for other resources not confirmed is unknown. Thus we need a method to obtain the readability of these remaining resources to make learners to find their own reading materials.
  Main motivation of this thesis presents features of analyzing difficulty by length of sentences, vocabulary, and grammar for ESL learner. Interpret texts with these features leads to an appropriate differentiation for learner in finding the proper text and generate to the efficiency result. The difference between our research and related works is that our research applies grammar analysis; those works mostly recognize readability with single terms. First we tag the POS of each word with POS tagger, and we cut these sentences to find out the factors which support us in recognizing the readability in grammar, and then combine the features above to calculate the difference of difficulty.
第三語言摘要
論文目次
第1章 緒論	1
1.1 研究動機與目的	2
1.2 研究內容	3
1.3 論文內容與大鋼	5
第二章 相關研究與探討	6
2.1 相關研究方法	6
第三章  研究方法	11
3.1 訓練資料來源	11
3.1.1 英國國家表標準語料庫	11
3.2 特徵選取	14
3.2.1 句子長度選取	14
3.2.2 long word選取	15
3.2.3 單字(word)選取	16
3.2.4 文法分析(POS N-gram 選取)	20
3.2.4.1 詞性標記	20
3.2.4.2 POS N-gram分析	24
3.3 相關性(Correlation)	32
3.4 特徵結合	35
第四章 實驗結果	38
4.1 實驗步驟	38
4.2 實驗結果與比較	39
4.2.1 特徵合併	39
4.2.2 相關研究比較	43
第五章  結論與未來研究方向	44
5.1 結論	44
5.2 未來研究方向	45
參考文獻	46
附錄-英文論文	48

圖目錄
圖 3.1.1 BNC Training Data資料圖	13
圖 3.3-1 無相關性圖示	33
圖 3.3-2 正相關性圖示	33
圖 3.3-3 負相關性圖例	33

表目錄
表2.1 Rix各等級Ratio分布表	7
表3.2.1 BNC句子平均長度比較表	14
表3.2.2 BNC long word出現機率比較表	15
表3.2.3-1 國中、高中單字比較表	17
表3.2.3-2 高中單字比較表	18
表3.2.3-3 全民英檢單字比較表	18
表2.2-1 TNT測試結果表	22
表2.2-2 詞類標記之詞性表	23
表3.2.4-1 N-gram切割表	24
表3.2.4-2 國中、高中POS Bigram比較表	26
表3.2.4-3 高中POS Bigram比較表	27
表3.2.4-4 全民英檢POS Bigram比較表	27
表3.2.4-5 國中和高中POS Trigram比較表	28
表3.2.4-6 國中和高中POS Trigram比較表	29
表3.2.4-7 國中和高中POS Trigram比較表	29
表3.2.4-8 POS Bigram高中課文比較之相關系數表	30
表3.2.4-9 POS Trigram高中課文比較之相關系數表	30
表4.1.1-1 全民英檢平均句子長度	39
表4.1.1-2 國中、高中平均句子長度	40
表4.1.1-3 全民英檢long word(7)出現機率	40
表4.1.1-4 國中、高中long word(7)出現機率	40
表4.1.1-5 用平均句子長度和long word(7)出現機率最高中課文比較	41
表4.1.1-6 用平均句子長度和long word(7)出現機率的英檢文章比較	42
表4.1.1-7 各特徵組合平均相關係數	42
參考文獻
[1]Chall, J.S. 1958. Readability: An appraisal of research and application. Bureau of Educational Research Monographs, No. 34. Columbus, OH: Ohio State Univ. Press.
[2]Klare, G. R. 1963. The Measurement of Readability. Ames,IA. Iowa State University Press.
[3]Mitchell, J.V. 1985. The Ninth Mental Measurements Yearbook. Lincoln, Nebraska: Univ. of Nebraska Press.
[4]Jonathan Anderson. 1983. Lix and rix: Variations of a little-known readability index. Journal of Reading,
26(6):490–496
[5]M Coleman and T. Liau. 1975. A computer readability formula designed for machine scoring. Journal of  Applied Psychology, 60:283–284.
[6]Kevyn Collins-Thompson is a Researcher in the Context, Learning, and User Experience for Search group at Microsoft Research (Redmond).
[7]Jamie Callan , Margaret Connell , Aiqun Du, Automatic discovery of language models for text databases, Proceedings of the 1999 ACM SIGMOD international conference on Management of data, p.479-490, May 31-June 03, 1999, Philadelphia, Pennsylvania, United States
[8]Stenner, A. J., Horabin, I., Smith, D.R., and Smith, M. 1988.The Lexile Framework. Durham, NC: Metametrics.
[9]Chall, J.S. and Dale, E. 1995. Readability Revisited: The New Dale-Chall Readability Formula. Cambridge, MA:
Brookline Books.
[10]Fry, E. 1990. A readability formula for short passages. J. of Reading, May 1990, 594-597.
[11]Carroll, J. B., Davies, P., Richman, B. 1971. Word Frequency Book. Boston: Houghton Mifflin
[12]Dale, E. and O'Rourke, J. 1981. The Living Word Vocabulary.Chicago, IL: World Book/Childcraft International.
[13]Si, L. and Callan, J. 2001. A statistical model for scientific readability. Proc. of CIKM 2001. Atlanta, GA, 574-576.
[14]BNC - British National Corpus http://www.natcrop.ox.ac.uk
[15]Charniak, Eugene, Curtis Hendrickson, Neil Jacobson, and Mike Perkowitz. 1993.Equations for part-of-speech tagging. In Proceedings of the Eleventh Conference on Artificial Intelligence, pp. 784-789, Menlo Park, CA.
[16]Thorsten.Brants, TnT-A Statistical Part-of-Speech Tagger.In Proceedings of the Sixth Applied Natrual Language
Processing Conference ANLP-2000, Seatle,WA, 2000
[17]Leech, G., Garside, R., and Bryant, M. (1994). CLAWS4: The tagging of the British National Corpus
[18]http://www.coli.uni-sb.de/sfb378/negra-corpus/.
[19]http://www.cogs.susx.ac.uk/users/geoffs/RSue.html
[20]http://www.natcorp.ox.ac.uk/
論文全文使用權限
校內
紙本論文於授權書繳交後1年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後1年公開
校外
同意授權
校外電子論文於授權書繳交後1年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信