系統識別號 | U0002-2507201316053900 |
---|---|
DOI | 10.6846/TKU.2013.01054 |
論文名稱(中文) | 電腦閱讀輔助系統之設計 |
論文名稱(英文) | Design of Computer-Assisted Reading System |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 電機工程學系碩士班 |
系所名稱(英文) | Department of Electrical and Computer Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 101 |
學期 | 2 |
出版年 | 102 |
研究生(中文) | 李盛超 |
研究生(英文) | Sheng-Chao Lee |
學號 | 601440026 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2013-07-02 |
論文頁數 | 65頁 |
口試委員 |
指導教授
-
謝景棠(hsieh@ee.tku.edu.tw)
委員 - 陳稔(zchen@cs.nctu.edu.tw) 委員 - 謝君偉(shieh@mail.ntou.edu.tw) |
關鍵字(中) |
文件影像 頁面切割 扭曲 圖文分離 |
關鍵字(英) |
Document image Page segment Warping Text extraction |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
本論文提出了一套能將擷取的文件影像文字校正後變成可閱讀文件的完整系統。數位相機、文件掃描器所擷取的影像在數位化時常常因為固有體積和複雜光源而造成影像扭曲。這些影響不只降低文件可讀性而且光學文字辨識的辨識效能。在這篇論文裡,我們提出了一種串聯非線性校正與線性補償校正文件的方法,僅用2D文件影像達到提高辨識率與縮短處理時間的目的。在文件校正之前先進行頁面切割[19]、文字萃取[10]的處理。首先,移除背景光源[20]之影響,使得Otsu二值化效能提升以利文件校正。第二,在移除扭曲方面使用了三次多項式的擬合方法找出最佳近似文字線進行垂直方向校正。第三,使用線性補償對單字進行水平方向校正。最後,依據建立好之文字地圖根據使用者點擊之單字或句子發音。與現有方法比較,實驗證實本系統之有效性。 |
英文摘要 |
This paper proposes a complete system which can be corrected captured document images into a readable file. Document images captured by camera or scanner often suffer from warping and distortions because of the bounded volumes and complex environment light source. These effects not only reduce the document readability but also the OCR recognition performance. In this paper, we propose a method to combine non-linear and linear compensation for correcting distortions of document images. Before we proceeding text rectification the page segment [19] and the text extraction [10] methods are applied as preprocessing. First, due to the broken text result of Otsu binarization, an image processing method [20] is used to remove the effect of background light. Second, the dewarping method using the cubic polynomial fitting equation is proposed to find out the optimal approximate text line for vertical direction rectification. Third, we use linear compensation for horizontal direction rectification. Finally, according to the word/sentence clicked by user the system will performing text to speech. |
第三語言摘要 | |
論文目次 |
致謝 I 中文摘要 II 英文摘要 III 目錄 IV 圖目錄 VII 表目錄 XI 第一章 緒論 1 1.1 研究動機 1 1.2 研究方法 2 1.3 論文架構 4 第二章 相關研究與背景知識 5 2.1 相關研究 5 2.1.1閱讀輔助系統之相關文獻 5 2.1.2扭曲文件校正之相關文獻 9 2.2 相關技術 20 2.2.1 Otsu二值化(Binarization) 20 2.2.2遞迴XY切割方法(Recursive XY-cut) 22 2.2.3形態學(Morphology) 24 2.2.4物件標記(Labeling) 28 第三章 本閱讀輔助系統 31 3.1 系統大綱 31 3.2 系統流程 32 3.2.1頁面切割 32 3.2.2圖文分離 37 3.2.3文字對比強化 38 3.2.4文件扭曲校正 39 3.2.5文字地圖與發音 44 第四章 實驗結果 47 4.1 實驗環境 47 4.2 處理表格與圖像實驗測試 49 4.2.1含圖像之文件測試 49 4.2.2含表格之文件測試 50 4.3 書本文件實驗測試 51 4.3.1含圖像之書本文件測試 51 4.3.2含公式及圖像之書本文件測試 52 4.3.3二次曲線扭曲校正測試 54 4.3.4三次曲線扭曲校正測試 54 4.4 實驗比較 55 4.4.1校正前後辨識率 55 4.4.2與產品及其他方法之比較 57 4.4.3取出背景之方法 58 4.4.4 二值化遮罩之比較 59 4.4.5線性補償方法 61 第五章 結論與未來展望 64 5.1 結論 64 5.2 未來展望 65 参考文獻 66 圖目錄 圖1.2 AF DOCEXPRESS 300 [2] 3 圖2.1文字偵測 [3] 6 圖2.2 PDA上的觸控設計 [3] 6 圖2.3視障人士所使用的PDA設備 [3] 6 圖2.4蝙蝠中英文自動閱讀機的使用範例 7 圖2.5掃描結果 7 圖2.6圖文分析結果 7 圖2.7文字辨識結果 7 圖2.8文件影像 [5] 8 圖2.9文件定位 [5] 8 圖2.10判斷觸碰事件例子 [5] 9 圖2.11閱讀系統使用範例 [5] 9 圖2.12文件校正分類圖 9 圖2.13文件骨架圖 10 圖2.14初始文件 10 圖2.15貝茲曲線補丁 10 圖2.16校正結果 10 圖2.17原圖 11 圖2.18區域清除方法 11 圖2.19針對陰影做處理 11 圖2.20對參考直線做矯正 11 圖2.21消失點與對應矩陣示意圖[9] 12 圖2.22書本表面與厚度[9] 13 圖2.23加入書本厚度示意圖[9] 13 圖2.24 COARSE-TO-FINE矯正流程圖[10] 13 圖2.25頁面邊緣尋找 [10] 14 圖2.26投影矩形 [10] 14 圖2.27單字校正[10] 15 圖2.28 3D與2D頁面結合圖 [11] 16 圖2.29光學模型 [12] 17 圖2.30找出之陰影處 [12] 17 圖2.31 3D曲面模型換算 [12] 17 圖2.32歪斜座標計算 [12] 17 圖2.33校正結果 [12] 17 圖2.34利用筆劃方向建立3D網格 18 圖2.35各種扭曲之3D網格 19 圖2.36 3D重建校正流程 19 圖2.37 RXYC切割示意圖 23 圖2.38斷開與閉合運算 28 圖2.39種子區域生長演算法結果 30 圖3.1實驗平台 31 圖3.2指定閱讀範例 31 圖3.3系統流程圖 32 圖3.4水平膨脹遮罩示意圖 35 圖3.5左側檢測範例[19] 35 圖3.6去雜訊後的文字區域範例[19] 35 圖3.7文件投影範例 35 圖3.8文字定位區流程圖 36 圖3.9頁面切割流程圖 36 圖3.10圖文分離流程圖 37 圖3.11文字對比強化範例 [20] 38 圖3.12文字對比強化流程圖 38 圖3.13文件扭曲校正流程圖 39 圖3.14種子標記判定遮罩 40 圖3.15曲線範例圖 41 圖3.16非線性校正圖 42 圖3.17單字校正示意圖 43 圖3.18座標地圖之建立 44 圖3.19發音系統圖 46 圖4.1設備圖 47 圖4.2實驗環境圖 48 圖4. 3含圖像之單頁文件校正 49 圖4.4含表格之單頁文件校正 50 圖4.5含圖像之文件校正結果 52 圖4.6含公式與圖像之文件校正 53 圖4.7含二次扭曲之文件校正 54 圖4.8含三次扭曲之文件校正 54 圖4.9使用離散餘弦轉換與傅利葉之結果 59 圖4.10陰影強烈影像與遮罩之關係 61 圖4.11計算單一行文字長度 62 圖4.12線性補償方法比較 63 表目錄 表4.1 AF DOCEXPRESS 300文件攝影機規格表 48 表4.2字元辨識率 56 表4.3單字辨識率 57 |
參考文獻 |
[1] http://www.who.int/mediacentre/factsheets/fs282/en/, visited in May 2013. [2] http://www.newimage.com.tw/En/, visited in May 2013. [3] V. Gaudissart, S. Ferreira , C. Thillou and B. Gosselin, “Mobile Reading Assistant for Blind People,” in Proc. of Speech and Computer (SPECOM), Oct. 17-19, 2005, pp. 538-544. [4] http://www.u-tran.com/index.php, visited in May 2013. [5] C. T. Hsieh, C. H. Yeh, T. T. Liu and K. C. Huang, “Non-Visual Document Recognition for Blind Reading Assistant System,” in Int. Computing Technology and Information Management Conf. (ICCM), vol. 14, June 18-20, 2013, pp. 463-458. [6] J. Liang, D. Doermann, and H. Li, “Camera-based analysis of text and documents: A survey,” in Int. J. Document Analysis and Recognition, vol. 7, no. 2-3, July 1, 2005, pp. 84-104. [7] A. Masalovitch and L. Mestetskiy, “Usage of continuous skeletal image representation for document images dewarping,” in Int. Workshop on Camera-Based Document Analysis and Recognition Conf. (CBDAR), Sept. 22, 2007, pp. 45-53. [8] Z. Zhang and C. L. Tan, “Correcting document image warping based on regression of curved text lines,” in Int. Conference on Document Analysis and Recognition Conf. (ICDAR), 2003, pp. 589-593. [9] B. Fu, M. Wu, R. Li, W. Li, Z. Xu and C. Yang, “A Model-based Book Dewarping Method Using Text Line Detection,” in Int. Workshop on Camera-Based Document Analysis and Recognition Conf. (CBDAR), Sept. 22, 2007, pp. 63-70. [10] N. Stamatopoulos, B. Gatos, I. Pratikakis, and S. J. Perantonis, “Goal-Oriented Rectification of Camera-Based Document Images,” IEEE Trans. on Image processing, vol. 20, no. 4, Sept. 27, 2010, pp. 910-920. [11] L. Zhang, Y. Zhang and C. L. Tan, “An improved physically-based method for geometric restoration of distorted document images,” IEEE Trans. on Pattern Anal. Mach. Intell., vol. 30, no. 4, Apr. 4, 2008, pp. 728-734. [12] C. L. Tan, L. Zhang, Z. Zhang, and T. Xia, “Restoring warped document images through 3-D shape modeling,” IEEE Trans. on Pattern Anal. Mach. Intell., vol. 28, no. 2, Dec. 19, 2005, pp. 195-208. [13] Y. Tian and S. G. Narasimhan, “Rectification and 3D Reconstruction of Curved Document Images,” IEEE Int. Computer Vision and Pattern Recognition Conf. (CVPR), June 20-25, 2011, pp. 377-384. [14] N. Otsu, “A Threshold Selection Method from Gray-Level Histograms,” IEEE Trans. on Systems, Man and Cybernetics, vol. 9, no. 1, 1979, pp. 62-66. [15] J. Ha, Haralick, R.M. and Phillips, I.T., “Recursive X-Y Cut using Bounding Boxes of Connected Components,” IEEE J. Document Analysis and Recognition, vol. 2, Aug. 14-16, 1995, pp. 952-955. [16] 王蕙君,基於Kinect之即時雙向人流計數系統,私立淡江大學電機工程學系碩士論文,民國一百零一年。 [17] 郭泰谷,無標誌擴增實境之實現-利用Kinect的觸摸人機介面設計,私立淡江大學電機工程學系碩士論文,民國一百零一年。 [18] R. Adams, and L. Bischof, “Seeded region growing,” IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 16, no. 6, 1994, pp. 641-647. [19] N. Stamatopoulos, B. Gatos, and A. Kesidis, “Automatic borders detection of camera document images,” in Int. Workshop Camera-Based Document Anal. Recognition Conf. (CDBAR), Sept. 22 , 2007, pp. 71-78. [20] J. Moraleda, “Large scalability in document image matching using text retrieval,” Int. J. Pattern Recognition Letters, vol. 33, no. 7, May 1, 2012, pp. 863-871. [21] S. Luo, X. Fang, C. Zhao and Y. Luo, “Text Line Based Correction of Distorted Document Images,” in Int. IEEE Trust, Security and Privacy in Computing and Communications Conf. (TrustCom), Nov. 16-18, 2011, pp 1494-1499. [22] Tesseract: http://code.google.com/p/tesseract-ocr/S., visited in May 2013. [23] Text-to-speech: http://msdn.microsoft.com/en-us/library/ms720163.aspx, visited in May 2013. [24] ABBYY FineReader OCR: http://finereader.abbyy.com/, visited in May 2013. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信