§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1807200715200400
DOI 10.6846/TKU.2007.00537
論文名稱(中文) 影片中的文字擷取
論文名稱(英文) Text Extraction on Video
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 95
學期 2
出版年 96
研究生(中文) 陳韻茹
研究生(英文) Yun-Ju Chen
學號 694192401
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2007-06-28
論文頁數 88頁
口試委員 指導教授 - 顏淑惠
委員 - 林慧珍
委員 - 徐道義
關鍵字(中) 影片文字偵測
影片文字擷取
黑白穿透量
參考畫格
代表畫格
文字遮罩
關鍵字(英) video text detection
video text extraction
BWTC (black-white transition count)
reference frame
corresponding frame
text mask
第三語言關鍵字
學科別分類
中文摘要
為了能夠有效管理眾多的影片檔案,本文發展一方法來擷取在影片中具有代表意義的文字。首先,對整體影片進行文字偵測,也就是說,每隔x個畫格從影片的開始至結束都檢查一次。偵測流程當中,不但要偵測該回合有無文字存在,並且要比對畫格間的文字重疊性及文字相似度。對於每個文字區段會紀錄其起始畫格、結束畫格、參考畫格、及代表畫格,並且標示該文字區域位在畫格之所在地。為了讓影片文字偵測結果更為準確,更進一步地進行文字區段間的合併,使得影片最終的文字偵測而得的文字區段段數達到最小值,以期與實際文字區段段數相符。
文字偵測之後,首先利用型態影像學中的測量學擴張將背景資訊移除。接著應用簡單的長條圖等化法增強影像的對比。然後執行文字擷取以備將來文字辨識之用。
英文摘要
With the rapid growth of digital technology, videos now play an important role in our life. Due to huge amount of video data, it needs efficient means to access and retrieve them. Text in videos is a powerful source to help us to understand the content of the videos. To achieve this task, we propose a method to extract text in videos. The text detection is achieved by overall video text detection and video clips mergence for same texts. Firstly, at each round,text regionsare roughly labeled by applying Canny edge detecting algorithm to 7 consecutive frames and taking the result of intersection of edge pixels. To determine whether there are the same texts on two frames, the comparison of region overlap and black-white transition count (BWTC) are used. For each text t, the video clip with start/end frame, reference frames, and corresponding frame will be recorded. The mergence of video clips occurs if two consecutive clips have the same text. Text mask Mt is constructed via reference frames of the text t. Text regions are thus refined using text masks. Before text extraction, the similarity of refined text regions is again compared for possible mergence of video clips.
To accomplish the text extraction,three steps-background removal, contrast enhancement, and binarizaiton-are applied to the correspondence frame of the text. Background is removed by morphological reconstruction. In order to get better binary results, it will be enhanced by multi-stage histogram equalization. Finally, binarization is performed by moving average algorithm.
Experimental results show that the effectiveness of the proposed method.
第三語言摘要
論文目次
目錄: 
第一章緒論 1
1.1 研究動機與目的 1
1.2 研究內容 4
1.3 論文架構 6
第二章相關研究與理論基礎 7
2.1 文字擷取的相關研究 7
2.2 理論基礎 13
2.2.1 肯尼邊緣偵測 13
2.2.2 形態影像學運算 17
.浸蝕 18
.擴張 19
.開合 20
.閉合 22
.測量學擴張 24
.形態重建 24
2.2.4 長條圖等化 25
2.2.3 二值化 25
.Otsu 25
.Niblack 26
第三章研究方法 27
3.1 文字區域的偵測 27
3.1.1 整體影片文字的偵測流程 28
3.1.1.A 單一回合的文字偵測 36
3.1.1.B 畫格間的文字比較 44
3.1.2 文字區段的合併 45
3.2 文字擷取 46
3.2.1 文字邊點整合其餘 47
3.2.2 背景移除 50
3.2.3 對比增強 51
3.2.4 二值化 54
第四章實驗結果與比較 57
4.1 實驗結果 57
4.2 實驗結果探討 63
4.3 實驗結果比較 66
第五章結果與未來研究方向 77
參考文獻 79
英文論文 81

圖目錄: 
圖1.1 系統流程 5
圖2.1 結構元素(a)水平直線、(b)垂直直線、(c)45度直線、(d)135度直線、(e)十字形、(f)方形 17
圖2.2 二元影像之浸蝕。(a)結構元素B 與欲進行浸蝕之物件X,(b)浸蝕後結果 18
圖2.3 灰階影像之浸蝕。(a)原灰階影像,(b)經由一垂直直線浸蝕後結果 18
圖2.4 二元影像之擴張。(a)結構元素B 與欲進行擴張之物件X,(b)擴張後結果 19
圖2.5 灰階影像之擴張。(a)原灰階影像,(b)經由一垂直直線擴張後結果 19
圖2.6 二元影像之開合。(a)結構元素B 與欲進行開合之物件X,(b)開合後結果,(c)兩藕斷絲連物件(d)經過開合後兩物件分離開來 20
圖2.7 灰階影像之開合。(a)原灰階影像,(b)經由開合後結果 21
圖2.8 二元影像之閉合。(a)結構元素B 與欲進行閉合之物件X,(b)閉合後結果,(c)三距離近的物件(d)經過閉合後三物件連結起來 22
圖2.9 灰階影像之閉合。(a)原灰階影像,(b)經由閉合後結果 23
圖2.10 測量學擴張(a)一維的f 和g,且f≦g,(b)為f執行基本擴張結果,(c)為(b)結果與g取其小後之結果,即測量學擴張 24
圖3.1 文字偵測流程之示意圖 27
圖3.2 整體影片的文字偵測流程(a) 文字出現兩個連續回合以上,(b)文字與上回合和下回合皆不相同時 35
圖3.3 單一回合文字偵測流程 36
圖3.4 (a),(c) 單一畫格的肯尼邊緣偵測結果;(b),(d) 連續七個畫格的肯尼邊緣偵測交集結果 37
圖3.5 去雜訊結果。(a)圖3.4(b)去雜訊後;(b)圖3.4(d)去雜訊後40
圖3.6 (a)圖3.4(b)去雜訊後;(b)圖(a)經由文字區域分割後;(c)圖(a)水平的BWTC,黑白穿透量圖 42
圖3.7 垂直文字偵測區域 44
圖3.10 文字擷取流程之示意 46
圖3.10 文字偵測結果。(a)與(b)為原文字偵測區塊(c)與(d)為文字遮罩Mtext;(e)與(f)分別以(c)與(d)協助(a)與(b)找出確切的文字區域 49
圖3.11 背景移除結果。(a),(b)偵測到的文字區域;(c),(d)為(a),(b)進行背景移除後的結果 51
圖3.12 對比增強之結果。左方的圖像為文字區域移除背景後的結果;右方的圖像為左方之對比增強後的結果 53
圖3.13 二值化之結果。左方的圖像為圖3.12(b),(d),(f)二值化之結果;右方的圖像為左方圖像去雜訊後之結果 55
圖3.14 未經過對比增強的二值化。(a)~(c)分別為圖3.12(a),(c),(e)二值化之結果 56
圖4.1 西方影片實驗結果(三段文字) 58
圖4.2 西方影片實驗結果(三段文字) 59
圖4.3 東方影片實驗結果(二段文字) 60
圖4.4 東方影片實驗結果(二段文字) 61
圖4.5 東方影片實驗結果(二段文字) 62
圖4.6 同段文字錯認為不同段文字 65
圖4.7 不同文字段錯認為同段文字 65
圖4.8 偵測結果比較。左方圖像的紅色矩形標示區塊為[13] 方法所偵測的結果;右方影像中紅色矩形標示區塊則為本文的偵測結果 67
圖4.9 偵測結果比較。左方圖像的紅色矩形標示區塊為[13] 方法所偵測的結果;右方影像中紅色矩形標示區塊則為本文的偵測結果 68
圖4.10 影像中無文字偵測結果比較。(a),(b)原圖;(c),(d)為本文方法對(a),(b)的結果;(e),(f)為[13]對(a),(b)的結果 70
圖4.11 二值化結果比較。(a)(b)原圖;(c),(d)為本文方法對(a),(b)二值化的結果;(e),(f)為[13]對(a),(b)二值化的結果 73
圖4.12 二值化結果比較。(a),(b)原圖;(c),(d)為本文方法對(a),(b)二值化的結果;(e),(f)為[13]對(a),(b)二值化的結果 76
圖4.13 二值化結果比較。(a),(b)原圖;(c),(d)為本文方法對(a),(b)二值化的結果;(e),(f)為[13]對(a),(b)二值化的結果 61
參考文獻
[1] K. Juang, K.I. Kim, and A.K. Jain, “Text information extraction in images and video: A survey,” Pattern Recognit., Vol. 37, No. 5, pp. 977–997, 2004.
[2] JiSoo Kim, SangCheol Park, and SooHyung Kim, “Text location from natural scene images using images intensities,” IEEE Transactions on Image Processing , 
Vol. 13, Issue: 1, pp. 87-99, January 2004.
[3] Shutao Li and James T. Kwok, “Text extraction using edge detection and morphological dilation,” 2004 International Symposium on Intelligent Multimedia, Video and Speech Processing, pp. 330-333, October, 2004.
[4] Yen-Lin Chen and Bing-Fei Wu, “Text extraction from complex document images using the multi-plane segmentation technique,” IEEE Conference on Systems, Man, and Cybernetics, October, 2006.
[5] Datong Chen, Jean-Marc Odobez, and Jean-Philippe Thiran, “A localization/verification scheme for finding text in images and video frames based on contrast independent features and machine learning methods,” Elsevier, Signal Processing: Image Communication Vol. 19, Issue: 3, pp. 205-217, March, 2004.
[6] Chong-Wah Ngo and Chi-Kwong Chan, “Video text detection and segmentation for optical character recognition,” Multimedia Systems, Vol. 10, Issue: 3, pp.
261-272, March, 2005.
[7] Yang Liu, Hong Lu, Xiangyang Xue, and Yap -Peng Tan, “Effective video text detection using line features,” 2004 8th International Conference on Control, Automation, Robotics and Vision (ICARCV) , Vol. 2, pp. 1528-1532, 2004.
[8] Jian Wang and Yuan-Hua Zhou, “An unsupervised approach for video text localization,” IEICE TRANS. INF. & SYST., Vol. E89-D, Issue: 4, pp.1582-1585, APRIL 2006.
[9] Po-Yueh Chen and Chung-Wei Liang, “Automatic text extraction using DWT andneural network,” 中華民國自動控制研討會, March, 2004.
[10] Hongxing Sun, Nannan Zhao, and Xinhe Xu, “Extraction of text under complex background using wavelet transform and support vector machine,” IEEE International Conference on Mechatronics and Automation (ICMNA 2006), Vol. 2006, No. 4026310, pp. 1493-1497, 2006.
[11] Michael R. Lyu, Jiqiang Song, and Min Cai “A comprehensive method for multilingual video text detection, localization, and extraction,” IEEE Trans. on
Circuits And Systems For Video Technology, Vol. 15, Issue: 2, pp. 243-255, February, 2005.
[12] Congjie Mi, Yuan Xu, Hong Lu, and Xiangyang Xue, “A novel video text extraction approach based on multiple frames,” IEEE International Conference on Information, Communications and signal Processing (ICICS 2005), Vol. 2005, No. 1689133, pp. 678-682, 2005.
[13] Hwei-Jen Lin, Chun-Wei Wang, and Yang-Ta Kao, “Text extraction in video images,” IEEE International  conference on Multimedia and Expo (ICME2006), Vol. 2006, No. 4036955, pp. 1737-1740, June, 2006.
[14] Hwei-Jen Lin and Fu-Wen Yang, “An intuitive  threshold selection base on 80 mountain clustering,” First International Workshop on Intelligent Multimedia Computing and Network (IMMCN2000), Session: Algorithms in Multimedia Computing, 2000.
[15] Pierre Soille, “Morphological image analysis : principles and application,”Springer-Verlag, pp. 48-186, and pp. 184-204, 1999.
[16] J.F. Canny, “A computational approach to edge detection,” IEEE Trans. Pattern Anal. Mach. Intell., Vol. 8, No. 1, pp. 679–698, 1986.
[17] N. Otsu, “A threshold selection method f rom gray-level histograms,” IEEE Trans. Systems Man Cybernet., Vol. 9, No. 1, pp. 62–66, 1979.
[18] W. Niblack, “An introduction to digital image processing,” Englewood Cliffs, New Jersey: Prentice-Hall International, pp. 115–116, 1986.
[19] P.H. Lindsay and D.A. Norman, Introduction Into Psychology-Human Information Reception and Processing (in German). Berlin, Germany:Springer-Verlag, 1991.
[20] S. Pfeiffer, R. Lienhart, S. Fischer, and W. Effelsberg, “Abstraction digital movies automatically,” J. Vis. Comm. Image Represent., Vol. 7, No. 4, pp. 345-353, December, 1996.
[21] Rainer Lienhart and Axel Wernicke, “Localizing and segmenting text in images and video,” IEEE transactions on circuits and system for video technology, Vol. 12, No. 4, April, 2002.
論文全文使用權限
校內
紙本論文於授權書繳交後1年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後1年公開
校外
同意授權
校外電子論文於授權書繳交後1年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信