§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2507201316053900
DOI 10.6846/TKU.2013.01054
論文名稱(中文) 電腦閱讀輔助系統之設計
論文名稱(英文) Design of Computer-Assisted Reading System
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 電機工程學系碩士班
系所名稱(英文) Department of Electrical and Computer Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 101
學期 2
出版年 102
研究生(中文) 李盛超
研究生(英文) Sheng-Chao Lee
學號 601440026
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2013-07-02
論文頁數 65頁
口試委員 指導教授 - 謝景棠(hsieh@ee.tku.edu.tw)
委員 - 陳稔(zchen@cs.nctu.edu.tw)
委員 - 謝君偉(shieh@mail.ntou.edu.tw)
關鍵字(中) 文件影像
頁面切割
扭曲
圖文分離
關鍵字(英) Document image
Page segment
Warping
Text extraction
第三語言關鍵字
學科別分類
中文摘要
本論文提出了一套能將擷取的文件影像文字校正後變成可閱讀文件的完整系統。數位相機、文件掃描器所擷取的影像在數位化時常常因為固有體積和複雜光源而造成影像扭曲。這些影響不只降低文件可讀性而且光學文字辨識的辨識效能。在這篇論文裡,我們提出了一種串聯非線性校正與線性補償校正文件的方法,僅用2D文件影像達到提高辨識率與縮短處理時間的目的。在文件校正之前先進行頁面切割[19]、文字萃取[10]的處理。首先,移除背景光源[20]之影響,使得Otsu二值化效能提升以利文件校正。第二,在移除扭曲方面使用了三次多項式的擬合方法找出最佳近似文字線進行垂直方向校正。第三,使用線性補償對單字進行水平方向校正。最後,依據建立好之文字地圖根據使用者點擊之單字或句子發音。與現有方法比較,實驗證實本系統之有效性。
英文摘要
This paper proposes a complete system which can be corrected captured document images into a readable file. Document images captured by camera or scanner often suffer from warping and distortions because of the bounded volumes and complex environment light source. These effects not only reduce the document readability but also the OCR recognition performance. In this paper, we propose a method to combine non-linear and linear compensation for correcting distortions of document images. Before we proceeding text rectification the page segment [19] and the text extraction [10] methods are applied as preprocessing. First, due to the broken text result of Otsu binarization, an image processing method [20] is used to remove the effect of background light. Second, the dewarping method using the cubic polynomial fitting equation is proposed to find out the optimal approximate text line for vertical direction rectification. Third, we use linear compensation for horizontal direction rectification. Finally, according to the word/sentence clicked by user the system will performing text to speech.
第三語言摘要
論文目次
致謝	I
中文摘要	II
英文摘要	III
目錄	IV
圖目錄	VII
表目錄	XI
第一章  緒論	1
1.1  研究動機	1
1.2  研究方法	2
1.3  論文架構	4
第二章  相關研究與背景知識	5
2.1  相關研究	5
2.1.1閱讀輔助系統之相關文獻	5
2.1.2扭曲文件校正之相關文獻	9
2.2  相關技術	20
2.2.1 Otsu二值化(Binarization)	20
2.2.2遞迴XY切割方法(Recursive XY-cut)	22
2.2.3形態學(Morphology)	24
2.2.4物件標記(Labeling)	28
第三章  本閱讀輔助系統	31
3.1  系統大綱	31
3.2  系統流程	32
3.2.1頁面切割	32
3.2.2圖文分離	37
3.2.3文字對比強化	38
3.2.4文件扭曲校正	39
3.2.5文字地圖與發音	44
第四章 實驗結果	47
4.1  實驗環境	47
4.2  處理表格與圖像實驗測試	49
4.2.1含圖像之文件測試	49
4.2.2含表格之文件測試	50
4.3  書本文件實驗測試	51
4.3.1含圖像之書本文件測試	51
4.3.2含公式及圖像之書本文件測試	52
4.3.3二次曲線扭曲校正測試	54
4.3.4三次曲線扭曲校正測試	54
4.4  實驗比較	55
4.4.1校正前後辨識率	55
4.4.2與產品及其他方法之比較	57
4.4.3取出背景之方法	58
4.4.4 二值化遮罩之比較	59
4.4.5線性補償方法	61
第五章  結論與未來展望	64
5.1  結論	64
5.2  未來展望	65
参考文獻	66

圖目錄

圖1.2 AF DOCEXPRESS 300 [2]	3
圖2.1文字偵測 [3]	6
圖2.2 PDA上的觸控設計 [3]	6
圖2.3視障人士所使用的PDA設備 [3]	6
圖2.4蝙蝠中英文自動閱讀機的使用範例	7
圖2.5掃描結果	7
圖2.6圖文分析結果	7
圖2.7文字辨識結果	7
圖2.8文件影像 [5]	8
圖2.9文件定位 [5]	8
圖2.10判斷觸碰事件例子 [5]	9
圖2.11閱讀系統使用範例 [5]	9
圖2.12文件校正分類圖	9
圖2.13文件骨架圖	10
圖2.14初始文件	10
圖2.15貝茲曲線補丁	10
圖2.16校正結果	10
圖2.17原圖	11
圖2.18區域清除方法	11
圖2.19針對陰影做處理	11
圖2.20對參考直線做矯正	11
圖2.21消失點與對應矩陣示意圖[9]	12
圖2.22書本表面與厚度[9]	13
圖2.23加入書本厚度示意圖[9]	13
圖2.24 COARSE-TO-FINE矯正流程圖[10]	13
圖2.25頁面邊緣尋找 [10]	14
圖2.26投影矩形 [10]	14
圖2.27單字校正[10]	15
圖2.28 3D與2D頁面結合圖 [11]	16
圖2.29光學模型 [12]	17
圖2.30找出之陰影處 [12]	17
圖2.31 3D曲面模型換算 [12]	17
圖2.32歪斜座標計算 [12]	17
圖2.33校正結果 [12]	17
圖2.34利用筆劃方向建立3D網格	18
圖2.35各種扭曲之3D網格	19
圖2.36 3D重建校正流程	19
圖2.37 RXYC切割示意圖	23
圖2.38斷開與閉合運算	28
圖2.39種子區域生長演算法結果	30
圖3.1實驗平台	31
圖3.2指定閱讀範例	31
圖3.3系統流程圖	32
圖3.4水平膨脹遮罩示意圖	35
圖3.5左側檢測範例[19]	35
圖3.6去雜訊後的文字區域範例[19]	35
圖3.7文件投影範例	35
圖3.8文字定位區流程圖	36
圖3.9頁面切割流程圖	36
圖3.10圖文分離流程圖	37
圖3.11文字對比強化範例 [20]	38
圖3.12文字對比強化流程圖	38
圖3.13文件扭曲校正流程圖	39
圖3.14種子標記判定遮罩	40
圖3.15曲線範例圖	41
圖3.16非線性校正圖	42
圖3.17單字校正示意圖	43
圖3.18座標地圖之建立	44
圖3.19發音系統圖	46
圖4.1設備圖	47
圖4.2實驗環境圖	48
圖4. 3含圖像之單頁文件校正	49
圖4.4含表格之單頁文件校正	50
圖4.5含圖像之文件校正結果	52
圖4.6含公式與圖像之文件校正	53
圖4.7含二次扭曲之文件校正	54
圖4.8含三次扭曲之文件校正	54
圖4.9使用離散餘弦轉換與傅利葉之結果	59
圖4.10陰影強烈影像與遮罩之關係	61
圖4.11計算單一行文字長度	62
圖4.12線性補償方法比較	63

表目錄

表4.1 AF DOCEXPRESS 300文件攝影機規格表	48
表4.2字元辨識率	56
表4.3單字辨識率	57
參考文獻
[1]	http://www.who.int/mediacentre/factsheets/fs282/en/, visited in May 2013.

[2]	http://www.newimage.com.tw/En/, visited in May 2013.

[3]	V. Gaudissart, S. Ferreira , C. Thillou and B. Gosselin, “Mobile Reading Assistant for Blind People,” in Proc. of Speech and Computer (SPECOM), Oct. 17-19, 2005, pp. 538-544.

[4]	http://www.u-tran.com/index.php, visited in May 2013.

[5]	C. T. Hsieh, C. H. Yeh, T. T. Liu and K. C. Huang, “Non-Visual Document Recognition for Blind Reading Assistant System,” in Int. Computing Technology and Information Management Conf. (ICCM), vol. 14, June 18-20, 2013, pp. 463-458.

[6]	J. Liang, D. Doermann, and H. Li, “Camera-based analysis of text and documents: A survey,” in Int. J. Document Analysis and Recognition, vol. 7, no. 2-3, July 1, 2005, pp. 84-104.

[7]	A. Masalovitch and L. Mestetskiy, “Usage of continuous skeletal image representation for document images dewarping,” in Int. Workshop on Camera-Based Document Analysis and Recognition Conf. (CBDAR), Sept. 22, 2007, pp. 45-53.

[8]	Z. Zhang and C. L. Tan, “Correcting document image warping based on regression of curved text lines,” in Int. Conference on Document Analysis and Recognition Conf. (ICDAR), 2003, pp. 589-593.

[9]	B. Fu, M. Wu, R. Li, W. Li, Z. Xu and C. Yang, “A Model-based Book Dewarping Method Using Text Line Detection,” in Int. Workshop on Camera-Based Document Analysis and Recognition Conf. (CBDAR), Sept. 22, 2007, pp. 63-70.

[10]	N. Stamatopoulos, B. Gatos, I. Pratikakis, and S. J. Perantonis, “Goal-Oriented Rectification of Camera-Based Document Images,” IEEE Trans. on Image processing, vol. 20, no. 4, Sept. 27, 2010, pp. 910-920.

[11]	L. Zhang, Y. Zhang and C. L. Tan, “An improved physically-based method for geometric restoration of distorted document images,” IEEE Trans. on Pattern Anal. Mach. Intell., vol. 30, no. 4, Apr. 4, 2008, pp. 728-734.

[12]	C. L. Tan, L. Zhang, Z. Zhang, and T. Xia, “Restoring warped document images through 3-D shape modeling,” IEEE Trans. on Pattern Anal. Mach. Intell., vol. 28, no. 2, Dec. 19, 2005, pp. 195-208.

[13]	Y. Tian and S. G. Narasimhan, “Rectification and 3D Reconstruction of Curved Document Images,” IEEE Int. Computer Vision and Pattern Recognition Conf. (CVPR), June 20-25, 2011, pp. 377-384.

[14]	N. Otsu, “A Threshold Selection Method from Gray-Level Histograms,” IEEE Trans. on Systems, Man and Cybernetics, vol. 9, no. 1, 1979, pp. 62-66.

[15]	J. Ha, Haralick, R.M. and Phillips, I.T., “Recursive X-Y Cut using Bounding Boxes of Connected Components,” IEEE J. Document Analysis and Recognition, vol. 2, Aug. 14-16, 1995, pp. 952-955.

[16]	王蕙君,基於Kinect之即時雙向人流計數系統,私立淡江大學電機工程學系碩士論文,民國一百零一年。

[17]	郭泰谷,無標誌擴增實境之實現-利用Kinect的觸摸人機介面設計,私立淡江大學電機工程學系碩士論文,民國一百零一年。

[18]	R. Adams, and L. Bischof, “Seeded region growing,” IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 16, no. 6, 1994, pp. 641-647.

[19]	N. Stamatopoulos, B. Gatos, and A. Kesidis, “Automatic borders detection of camera document images,” in Int. Workshop Camera-Based Document Anal. Recognition Conf. (CDBAR), Sept. 22 , 2007, pp. 71-78.

[20]	J. Moraleda, “Large scalability in document image matching using text retrieval,” Int. J. Pattern Recognition Letters, vol. 33, no. 7, May 1, 2012, pp. 863-871.

[21]	S. Luo, X. Fang, C. Zhao and Y. Luo, “Text Line Based Correction of Distorted Document Images,” in Int. IEEE Trust, Security and Privacy in Computing and Communications Conf. (TrustCom), Nov. 16-18, 2011, pp 1494-1499.

[22]	Tesseract: http://code.google.com/p/tesseract-ocr/S., visited in May 2013.

[23]	Text-to-speech: http://msdn.microsoft.com/en-us/library/ms720163.aspx, visited in May 2013.

[24]	ABBYY FineReader OCR: http://finereader.abbyy.com/, visited in May 2013.
論文全文使用權限
校內
紙本論文於授權書繳交後2年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後2年公開
校外
同意授權
校外電子論文於授權書繳交後2年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信