系統識別號 | U0002-2302202123125900 |
---|---|
DOI | 10.6846/TKU.2021.00596 |
論文名稱(中文) | 用Tesseract 結合LSTM 模型實作手填表格辨識 |
論文名稱(英文) | Using Tesseract with LSTM to recognize hand-filled form |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 資訊工程學系碩士班 |
系所名稱(英文) | Department of Computer Science and Information Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 109 |
學期 | 1 |
出版年 | 110 |
研究生(中文) | 蔡桓銘 |
研究生(英文) | Huan-Ming Tsai |
學號 | 607410577 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2021-01-15 |
論文頁數 | 46頁 |
口試委員 |
指導教授
-
蔡憶佳
委員 - 林慧珍 委員 - 林慶昌 |
關鍵字(中) |
光學字元識別、表格處理、長短期記憶模型 |
關鍵字(英) |
Optical character recognition、Form processing、LSTM |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
在日常生活中,我們常遇到手填表格的情況,而將手填表格轉換成電子檔大 多須由人工輸入至電腦,而在此篇論文為了減去人工輸入的時間,利用OpenCV 對掃描的表格進行影像處理,抓取欄位框線並將欄位內原有的資料去除,再交由 光學字元識別軟體Tesseract 進行手寫文字的辨識。 我們使用AI.FREE 的繁體手寫文字集,從手寫文字集中挑選100 個文字,並 將三分之二圖檔進行LSTM 訓練,加強Tesseract 對手寫文字的辨識準確度,剩 餘的三分之一來驗證訓練的成果。 本次實驗希望藉由LSTM 訓練的資料集,可以增進對繁體中文辨識的準確 度,以利手填表格可以容易的轉為電子檔。 |
英文摘要 |
In daily life, we often encounter the situation of hand-filled forms, and the hand-filled forms are converted into electronic document.Most of them must be manually input to the computer, in order to subtract the time of manual input in this paper,We use OpenCV on the scanned form, catch the table border and remove the original data in the table, and then hand it over Optical character recognition software Tesseract recognizes handwritten text. We use AI.FREE’s traditional handwritten character set, select 100 characters from the handwritten character set, and use LSTM training on two-thirds of the image files to strengthen Tesseract’s recognition accuracy of handwritten text.The remaining one-third to verify the training results. This paper hopes that the data set trained by LSTM can improve the accuracy of traditional Chinese recognition.It can be easily converted to electronic document by hand-filled form. |
第三語言摘要 | |
論文目次 |
目錄 1 緒論1 1.1 研究背景與動機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 研究目的. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 研究流程與步驟. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 表格處理5 2.1 表格預處理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 表格轉正及切割. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 表格格線切割. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.4 表格欄位處理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3 文字辨識17 3.1 TESSERACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 TESSERACT 的神經網路. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.3 遞迴神經網路RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.4 長短期記憶模型LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4 訓練流程23 4.1 圖檔佈署. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.2 LSTM 檔. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.3 訓練與驗證. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.4 實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5 結論30 5.1 實驗展示. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.2 實驗討論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 圖目錄 1.1 資料訓練流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1 表格處理流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 表格例子. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 Canny 邊緣檢測. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.4 表格膨脹與腐蝕. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.5 抓取表格. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.6 旋轉表格後並切割. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.7 HoughLinesP 查找直線. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.8 將外框先定位. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.9 將線段的端點標出. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.10 將延伸線的交點標示. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.11 最後剩下的實質表格點. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.12 欄位-1.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.13 欄位-2.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.14 欄位-3.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.15 欄位-4.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.16 欄位-5.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.17 欄位-6.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.18 欄位-7.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.19 欄位-8.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.20 欄位-1.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.21 欄位-2.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.22 欄位-3.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.23 欄位-4.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.24 欄位-5.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.25 欄位-6.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.26 欄位-7.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.27 欄位-8.png . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.1 遞迴神經網路. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2 LSTM 模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.1 資料訓練流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.2 訓練集示意圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.3 測試集示意圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.4 預辨識圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.5 修改後辨識圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.6 實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.7 辨識及驗證-1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.8 辨識集驗證-2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.1 範例圖檔. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.2 輸出圖檔. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 表目錄 1.1 使用LSTM 訓練的字符辨識率. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1 讀取圖片做邊界檢測. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 將表格轉正並切割. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 尋找直線. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.4 找出線段延伸交點. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.5 依序將欄位切割. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.1 語言集版本. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.1 圖檔佈署. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2 製作LSTM 檔指令. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.3 訓練與驗證指令. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 |
參考文獻 |
參考文獻 [1] M. Abul, H. Muttakinur, R. Chowdhury, and M. Khan, “An open source tesseract based optical character recognizer for bangla script,” 2009, pp. 671–675. [2] T. M. Breuel, A. Ul-Hasan, M. A. Al-Azawi, and F. Shafait, “High-performance ocr for printed english and fraktur using lstm networks,” in 2013 12th International Conference on Document Analysis and Recognition, 2013, pp. 683–687. [3] P.-C. Chen, Traditional chinese handwriting dataset, https : / / github . com / AI - FREE - Team/Traditional-Chinese-Handwriting-Dataset, 2020. [4] P. V. Hough, Method and means for recognizing complex patterns, US Patent 3,069,654, 1962. [5] Q. Li, W. An, A. Zhou, and L. Ma, “Recognition of offline handwritten chinese characters using the tesseract open source ocr engine,” in 2016 8th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC), vol. 02, 2016, pp. 452–456. [6] G. Nagy, “At the frontiers of ocr,” Proceedings of the IEEE, vol. 80, no. 7, pp. 1093–1100, 1992. [7] S. V. Rice, F. R. Jenkins, and T. A. Nartker, The fourth annual test of ocr accuracy, 1995. [8] H. Sepp and S. Jürgen, “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735– 1780, 1997. [9] R. W. Smith, “Hybrid page layout analysis via tab-stop detection,” in 2009 10th International Conference on Document Analysis and Recognition, 2009, pp. 241–245. [10] R. Smith, Tesseract blends old and new ocr technology, https://github.com/tesseractocr/ tessdoc, 2016. [11] R. Smith and G. Inc, “An overview of the tesseract ocr engine,” in Proc. 9th IEEE Intl. Conf. on Document Analysis and Recognition, 2007, pp. 629–633. [12] R. W. Smith, “Hybrid page layout analysis via tab-stop detection,” in 2009 10th International Conference on Document Analysis and Recognition, IEEE, 2009, pp. 241–245. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信