| 系統識別號 | U0002-2907202410470600 |
|---|---|
| DOI | 10.6846/tku202400597 |
| 論文名稱(中文) | 基於OCR及深度學習之新聞分類系統 |
| 論文名稱(英文) | News Classification System Based On OCR And Deep Learning |
| 第三語言論文名稱 | |
| 校院名稱 | 淡江大學 |
| 系所名稱(中文) | 資訊工程學系碩士在職專班 |
| 系所名稱(英文) | Department of Computer Science and Information Engineering |
| 外國學位學校名稱 | |
| 外國學位學院名稱 | |
| 外國學位研究所名稱 | |
| 學年度 | 112 |
| 學期 | 2 |
| 出版年 | 113 |
| 研究生(中文) | 李承偉 |
| 研究生(英文) | Cheng-Wei Lee |
| 學號 | 711410059 |
| 學位類別 | 碩士 |
| 語言別 | 繁體中文 |
| 第二語言別 | |
| 口試日期 | 2024-07-03 |
| 論文頁數 | 44頁 |
| 口試委員 |
指導教授
-
石貴平(kpshih@mail.tku.edu.tw)
口試委員 - 廖文華 口試委員 - 蒯思齊 口試委員 - 張志勇 |
| 關鍵字(中) |
神經網路 自然語言處理 損失函數 |
| 關鍵字(英) |
Deep learning Artificial neural network BERT model |
| 第三語言關鍵字 | |
| 學科別分類 | |
| 中文摘要 |
本論文研究的主題是以深度學習為主的文字辨識技術,著重在利用深度學習,將類神經網路演算法加以應用,而在深度學習中,文字辨識將印刷或手寫的文字轉換成電腦可判別理解的格式,以便檢索或分析。 當深度學習應用於文字辨識時,會使用BERT (Bidirectional Encoder Representations from Transformers)模型及LSTM (Long Short-Term Memory)模型,這是一個對於自然語言處理(NLP)領域中很適合的訓練模型,本論文的整個流程,從準備資料集並下載載入到模型,接著將文字資料轉換成模型可接受的格式,其中可能會包含文字中的單詞或子詞,接著建立深度學習模型架構,使用TensorFlow或PyTorch深度學習框架來進行模型訓練,定義損失函數、優化器和訓練的迭代次數,最後獲得經由以上AI模型校正後,衡量指標可能包括準確度、精確度,當所有的模型評估完成後,再將模型部屬到應用中,可能會將模型包裝成API服務,整合到網站或是應用程式中。 |
| 英文摘要 |
The artificial intelligence has been used this generation, not just in technology but in other different industries. Most companies have also begun to use automation, machine learning algorithms. Artificial intelligence will become the future trend.
The research topic of this thesis is deep learning and optical character recognition. This thesis uses artificial neural network to complete the writing. In the process of deep learning research, optical character recognition converts copy or handwriting text into a format that computers can discern and understand.
When I use deep learning for character recognition applications, I use the BERT model to train it. I also use TensorFlow or PyTorch deep learning framework for model training. I will use deep learning to calibrate the AI model, and I deploy the results to the application.
|
| 第三語言摘要 | |
| 論文目次 |
摘要 i Abstract ii 目錄 iii 圖目錄 vi 表目錄 viii 第一章 緒論 1 1.1 研究背景 1 1.2 研究動機 2 1.3 研究目的 2 1.4 論文架構 3 第二章 文獻探討 4 2.1 OCR光學字元辨識 4 2.2 OCR系統基礎 5 2.3 文字檢測基礎 9 2.4 場景文字檢測 11 2.5 文字分割識別 12 2.6 模型訓練應用 13 第三章 研究方法設計 19 3.1 資料收集與預處理 19 3.2 CNN特徵提取 20 3.3 模型設計與選擇 22 3.4 模型訓練優化與評估 26 第四章 研究結果 30 4.1 研究背景與目的 30 4.2 OCR實驗結果 30 4.3 模型架構 31 4.4 訓練與測試 32 4.5 研究結果 33 4.6 模型差異比較 37 第五章 結論與未來展望 40 5.1 結論 40 5.2 未來展望 41 參考文獻 43 圖目錄 圖2.1 灰階公式圖 7 圖2.2 LeNet Model架構圖 10 圖2.3 LSTM 架構圖 13 圖2.4 LSTM - 記憶單元架構圖 14 圖2.5 LSTM 遺忘門示意圖 15 圖2.6 LSTM 輸入門示意圖 16 圖2.7 LSTM 輸出門示意圖 17 圖3.1 加載VGG16模型代碼示意圖 20 圖3.2 調整圖像像素代碼示意圖 21 圖3.3 正規化圖像代碼示意圖 21 圖3.4 提取特徵代碼示意圖 22 圖3.5 文本轉換整數序列代碼示意圖 23 圖3.6 整數標籤轉換為二進制代碼示意圖 23 圖3.7 LSTM輸出層代碼示意圖 25 圖3.8 模型預測代碼示意圖 26 圖3.9 計算性能指標代碼示意圖 28 圖3.10 混淆矩陣示意圖 28 圖3.11 分類報告代碼示意圖 29 圖4.1 BERT模型Transformer架構參數圖 32 表目錄 表4.1 LSTM 模型混淆矩陣表 35 表4.2 BERT 模型混淆矩陣表 35 表4.3 LSTM 模型準確率、召回率及F1分數分類表 36 表4.4 BERT 模型準確率、召回率及F1分數分類表 36 表4.5 準確率、召回率及F1分數分類差異比較表 37 |
| 參考文獻 |
[1] T. Lee and D. Mumford, Hierarchical Bayesia inference in the visual
cortex, J.Opt. Soc. Amer., vol.20, pt.7, pp.1434-1448, 2008
[2] Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Image style
transfer using con- volutional neural networks. In Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, pages
2414–2423, 2016.
[3] Liu, Hailong, and Xiaoqing Ding. "Handwritten character recognition
using gradient feature and quadratic classifier with multiple
discrimination schemes." Document Analysis and Recognition, 2005.
Proceedings. Eighth International Conference on. IEEE, 2005.A.
[4] Dalal.N., B.Triggs, ‘Histogram of oriented gradients for human
detection’, IEEE Computer Society Conference on Computer Vision
and Pattern Recognition(CVPR’05). June 2005.
[5] Jonathan Tompson, Murphy Stein, Yann Lecun, Ken Perlin, “ Real-
Time Continuous Pose Recovery of Human Hands Using Convolutional
Networks”, 23 September 2014, ACM Transactions on
GraphicsVolume 33,Issue 5Article No.: 169,pp 1~10,
[6] P. Le Callet, C. Viard-Gaudin, D. Barba, “A convolutional neural
network approach for objective video quality assessment,” IEEE
Transactions on Neural Networks, vol. 17, no. 5, 2006, pp.1316-1327.
[7] Y LeCun, LD Jackel, L Bottou, C Cortes, JS Denker, H Drucker, I
Guyon,” Learning algorithms for classification: A comparison on
handwritten digit recognition,” Neural networks: the statistical
mechanics perspective, pp. 261-276.
[8] H. Lee, R. Grosse, R. Ranganath, A. Y. Ng, “Unsupervised learning of
hierarchical representations with convolutional deep belief networks,”
Communications of the ACM, vol. 54, no. 10, 2011, pp. 95-103.
[9] K. Kavukcuoglu, P. Sermanet, Y. L. Boureau, K. Gregor, M. Mathieu,
Y. LeCun, “Learning convolutional feature hierarchies for visual
recognition,” 23rd International Conference on Neural Information
Processing Systems (NIPS), vol. 1, Dec. 2010, pp. 1090-1098.
[10] C. Cheng, X. Y. Zhang, X. H. Shao, X. D. Zhou, “Handwritten
Chinese Character Recognition by Joint Classification and Similarity
Ranking,” 2016 15th International Conference on Frontiers in
Handwriting Recognition (ICFHR), Shenzhen, China, Oct 2016
[11] C. C. Wu, C. H. Chou, and F. Chang, “A Machine-Learning Approach
for Analyzing Document Layout Structures with Two Reading Orders,”
Pattern Recognition, vol. 41, no. 10, 2008, pp. 3200-3213.
[12] C. H. Chou, S. Y. Chu, and F. Chang, “Estimation of Skew Angles
for Scanned Documents Based on Piecewise Covering by
Parallelograms,” Pattern Recognition, vol. 40, no. 2, 2007,
pp. 443-455.
|
| 論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信