淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2507201316053900
中文論文名稱 電腦閱讀輔助系統之設計
英文論文名稱 Design of Computer-Assisted Reading System
校院名稱 淡江大學
系所名稱(中) 電機工程學系碩士班
系所名稱(英) Department of Electrical Engineering
學年度 101
學期 2
出版年 102
研究生中文姓名 李盛超
研究生英文姓名 Sheng-Chao Lee
學號 601440026
學位類別 碩士
語文別 中文
口試日期 2013-07-02
論文頁數 65頁
口試委員 指導教授-謝景棠
委員-陳稔
委員-謝君偉
中文關鍵字 文件影像  頁面切割  扭曲  圖文分離 
英文關鍵字 Document image  Page segment  Warping  Text extraction 
學科別分類 學科別應用科學電機及電子
中文摘要 本論文提出了一套能將擷取的文件影像文字校正後變成可閱讀文件的完整系統。數位相機、文件掃描器所擷取的影像在數位化時常常因為固有體積和複雜光源而造成影像扭曲。這些影響不只降低文件可讀性而且光學文字辨識的辨識效能。在這篇論文裡,我們提出了一種串聯非線性校正與線性補償校正文件的方法,僅用2D文件影像達到提高辨識率與縮短處理時間的目的。在文件校正之前先進行頁面切割[19]、文字萃取[10]的處理。首先,移除背景光源[20]之影響,使得Otsu二值化效能提升以利文件校正。第二,在移除扭曲方面使用了三次多項式的擬合方法找出最佳近似文字線進行垂直方向校正。第三,使用線性補償對單字進行水平方向校正。最後,依據建立好之文字地圖根據使用者點擊之單字或句子發音。與現有方法比較,實驗證實本系統之有效性。
英文摘要 This paper proposes a complete system which can be corrected captured document images into a readable file. Document images captured by camera or scanner often suffer from warping and distortions because of the bounded volumes and complex environment light source. These effects not only reduce the document readability but also the OCR recognition performance. In this paper, we propose a method to combine non-linear and linear compensation for correcting distortions of document images. Before we proceeding text rectification the page segment [19] and the text extraction [10] methods are applied as preprocessing. First, due to the broken text result of Otsu binarization, an image processing method [20] is used to remove the effect of background light. Second, the dewarping method using the cubic polynomial fitting equation is proposed to find out the optimal approximate text line for vertical direction rectification. Third, we use linear compensation for horizontal direction rectification. Finally, according to the word/sentence clicked by user the system will performing text to speech.
論文目次 致謝 I
中文摘要 II
英文摘要 III
目錄 IV
圖目錄 VII
表目錄 XI
第一章 緒論 1
1.1 研究動機 1
1.2 研究方法 2
1.3 論文架構 4
第二章 相關研究與背景知識 5
2.1 相關研究 5
2.1.1閱讀輔助系統之相關文獻 5
2.1.2扭曲文件校正之相關文獻 9
2.2 相關技術 20
2.2.1 Otsu二值化(Binarization) 20
2.2.2遞迴XY切割方法(Recursive XY-cut) 22
2.2.3形態學(Morphology) 24
2.2.4物件標記(Labeling) 28
第三章 本閱讀輔助系統 31
3.1 系統大綱 31
3.2 系統流程 32
3.2.1頁面切割 32
3.2.2圖文分離 37
3.2.3文字對比強化 38
3.2.4文件扭曲校正 39
3.2.5文字地圖與發音 44
第四章 實驗結果 47
4.1 實驗環境 47
4.2 處理表格與圖像實驗測試 49
4.2.1含圖像之文件測試 49
4.2.2含表格之文件測試 50
4.3 書本文件實驗測試 51
4.3.1含圖像之書本文件測試 51
4.3.2含公式及圖像之書本文件測試 52
4.3.3二次曲線扭曲校正測試 54
4.3.4三次曲線扭曲校正測試 54
4.4 實驗比較 55
4.4.1校正前後辨識率 55
4.4.2與產品及其他方法之比較 57
4.4.3取出背景之方法 58
4.4.4 二值化遮罩之比較 59
4.4.5線性補償方法 61
第五章 結論與未來展望 64
5.1 結論 64
5.2 未來展望 65
参考文獻 66

圖目錄

圖1.2 AF DOCEXPRESS 300 [2] 3
圖2.1文字偵測 [3] 6
圖2.2 PDA上的觸控設計 [3] 6
圖2.3視障人士所使用的PDA設備 [3] 6
圖2.4蝙蝠中英文自動閱讀機的使用範例 7
圖2.5掃描結果 7
圖2.6圖文分析結果 7
圖2.7文字辨識結果 7
圖2.8文件影像 [5] 8
圖2.9文件定位 [5] 8
圖2.10判斷觸碰事件例子 [5] 9
圖2.11閱讀系統使用範例 [5] 9
圖2.12文件校正分類圖 9
圖2.13文件骨架圖 10
圖2.14初始文件 10
圖2.15貝茲曲線補丁 10
圖2.16校正結果 10
圖2.17原圖 11
圖2.18區域清除方法 11
圖2.19針對陰影做處理 11
圖2.20對參考直線做矯正 11
圖2.21消失點與對應矩陣示意圖[9] 12
圖2.22書本表面與厚度[9] 13
圖2.23加入書本厚度示意圖[9] 13
圖2.24 COARSE-TO-FINE矯正流程圖[10] 13
圖2.25頁面邊緣尋找 [10] 14
圖2.26投影矩形 [10] 14
圖2.27單字校正[10] 15
圖2.28 3D與2D頁面結合圖 [11] 16
圖2.29光學模型 [12] 17
圖2.30找出之陰影處 [12] 17
圖2.31 3D曲面模型換算 [12] 17
圖2.32歪斜座標計算 [12] 17
圖2.33校正結果 [12] 17
圖2.34利用筆劃方向建立3D網格 18
圖2.35各種扭曲之3D網格 19
圖2.36 3D重建校正流程 19
圖2.37 RXYC切割示意圖 23
圖2.38斷開與閉合運算 28
圖2.39種子區域生長演算法結果 30
圖3.1實驗平台 31
圖3.2指定閱讀範例 31
圖3.3系統流程圖 32
圖3.4水平膨脹遮罩示意圖 35
圖3.5左側檢測範例[19] 35
圖3.6去雜訊後的文字區域範例[19] 35
圖3.7文件投影範例 35
圖3.8文字定位區流程圖 36
圖3.9頁面切割流程圖 36
圖3.10圖文分離流程圖 37
圖3.11文字對比強化範例 [20] 38
圖3.12文字對比強化流程圖 38
圖3.13文件扭曲校正流程圖 39
圖3.14種子標記判定遮罩 40
圖3.15曲線範例圖 41
圖3.16非線性校正圖 42
圖3.17單字校正示意圖 43
圖3.18座標地圖之建立 44
圖3.19發音系統圖 46
圖4.1設備圖 47
圖4.2實驗環境圖 48
圖4. 3含圖像之單頁文件校正 49
圖4.4含表格之單頁文件校正 50
圖4.5含圖像之文件校正結果 52
圖4.6含公式與圖像之文件校正 53
圖4.7含二次扭曲之文件校正 54
圖4.8含三次扭曲之文件校正 54
圖4.9使用離散餘弦轉換與傅利葉之結果 59
圖4.10陰影強烈影像與遮罩之關係 61
圖4.11計算單一行文字長度 62
圖4.12線性補償方法比較 63

表目錄

表4.1 AF DOCEXPRESS 300文件攝影機規格表 48
表4.2字元辨識率 56
表4.3單字辨識率 57

參考文獻 [1] http://www.who.int/mediacentre/factsheets/fs282/en/, visited in May 2013.

[2] http://www.newimage.com.tw/En/, visited in May 2013.

[3] V. Gaudissart, S. Ferreira , C. Thillou and B. Gosselin, “Mobile Reading Assistant for Blind People,” in Proc. of Speech and Computer (SPECOM), Oct. 17-19, 2005, pp. 538-544.

[4] http://www.u-tran.com/index.php, visited in May 2013.

[5] C. T. Hsieh, C. H. Yeh, T. T. Liu and K. C. Huang, “Non-Visual Document Recognition for Blind Reading Assistant System,” in Int. Computing Technology and Information Management Conf. (ICCM), vol. 14, June 18-20, 2013, pp. 463-458.

[6] J. Liang, D. Doermann, and H. Li, “Camera-based analysis of text and documents: A survey,” in Int. J. Document Analysis and Recognition, vol. 7, no. 2-3, July 1, 2005, pp. 84-104.

[7] A. Masalovitch and L. Mestetskiy, “Usage of continuous skeletal image representation for document images dewarping,” in Int. Workshop on Camera-Based Document Analysis and Recognition Conf. (CBDAR), Sept. 22, 2007, pp. 45-53.

[8] Z. Zhang and C. L. Tan, “Correcting document image warping based on regression of curved text lines,” in Int. Conference on Document Analysis and Recognition Conf. (ICDAR), 2003, pp. 589-593.

[9] B. Fu, M. Wu, R. Li, W. Li, Z. Xu and C. Yang, “A Model-based Book Dewarping Method Using Text Line Detection,” in Int. Workshop on Camera-Based Document Analysis and Recognition Conf. (CBDAR), Sept. 22, 2007, pp. 63-70.

[10] N. Stamatopoulos, B. Gatos, I. Pratikakis, and S. J. Perantonis, “Goal-Oriented Rectification of Camera-Based Document Images,” IEEE Trans. on Image processing, vol. 20, no. 4, Sept. 27, 2010, pp. 910-920.

[11] L. Zhang, Y. Zhang and C. L. Tan, “An improved physically-based method for geometric restoration of distorted document images,” IEEE Trans. on Pattern Anal. Mach. Intell., vol. 30, no. 4, Apr. 4, 2008, pp. 728-734.

[12] C. L. Tan, L. Zhang, Z. Zhang, and T. Xia, “Restoring warped document images through 3-D shape modeling,” IEEE Trans. on Pattern Anal. Mach. Intell., vol. 28, no. 2, Dec. 19, 2005, pp. 195-208.

[13] Y. Tian and S. G. Narasimhan, “Rectification and 3D Reconstruction of Curved Document Images,” IEEE Int. Computer Vision and Pattern Recognition Conf. (CVPR), June 20-25, 2011, pp. 377-384.

[14] N. Otsu, “A Threshold Selection Method from Gray-Level Histograms,” IEEE Trans. on Systems, Man and Cybernetics, vol. 9, no. 1, 1979, pp. 62-66.

[15] J. Ha, Haralick, R.M. and Phillips, I.T., “Recursive X-Y Cut using Bounding Boxes of Connected Components,” IEEE J. Document Analysis and Recognition, vol. 2, Aug. 14-16, 1995, pp. 952-955.

[16] 王蕙君,基於Kinect之即時雙向人流計數系統,私立淡江大學電機工程學系碩士論文,民國一百零一年。

[17] 郭泰谷,無標誌擴增實境之實現-利用Kinect的觸摸人機介面設計,私立淡江大學電機工程學系碩士論文,民國一百零一年。

[18] R. Adams, and L. Bischof, “Seeded region growing,” IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 16, no. 6, 1994, pp. 641-647.

[19] N. Stamatopoulos, B. Gatos, and A. Kesidis, “Automatic borders detection of camera document images,” in Int. Workshop Camera-Based Document Anal. Recognition Conf. (CDBAR), Sept. 22 , 2007, pp. 71-78.

[20] J. Moraleda, “Large scalability in document image matching using text retrieval,” Int. J. Pattern Recognition Letters, vol. 33, no. 7, May 1, 2012, pp. 863-871.

[21] S. Luo, X. Fang, C. Zhao and Y. Luo, “Text Line Based Correction of Distorted Document Images,” in Int. IEEE Trust, Security and Privacy in Computing and Communications Conf. (TrustCom), Nov. 16-18, 2011, pp 1494-1499.

[22] Tesseract: http://code.google.com/p/tesseract-ocr/S., visited in May 2013.

[23] Text-to-speech: http://msdn.microsoft.com/en-us/library/ms720163.aspx, visited in May 2013.

[24] ABBYY FineReader OCR: http://finereader.abbyy.com/, visited in May 2013.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2015-07-31公開。
  • 同意授權瀏覽/列印電子全文服務,於2015-07-31起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信