系統識別號 | U0002-2909201609544500 |
---|---|
DOI | 10.6846/TKU.2016.01060 |
論文名稱(中文) | 在智慧會議室中設計及實作即時語音轉文字技術 |
論文名稱(英文) | Design and Implementation of a Real Time Speech to Text Mechanism for a Smart Conference Room |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 資訊工程學系碩士在職專班 |
系所名稱(英文) | Department of Computer Science and Information Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 104 |
學期 | 2 |
出版年 | 105 |
研究生(中文) | 梁詠竣 |
研究生(英文) | Yung-Chun Liang |
學號 | 703410190 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | 英文 |
口試日期 | 2016-07-01 |
論文頁數 | 54頁 |
口試委員 |
指導教授
-
石貴平(kpshih@mail.tku.edu.tw)
委員 - 蘇民揚 委員 - 張志勇 委員 - 石貴平 |
關鍵字(中) |
物聯網 智慧會議室 語音轉文字 |
關鍵字(英) |
IoT Smart Conference Room Speech To Text STT |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
開會是一般商務活動重要的一環,提供自動化與智慧化的內容記錄與管理將開會的內容自動內容儲存,將可有效簡化會議的流程及日後的文件整理。 本論文擬建置一「即時語音轉換文字在智慧會議室中」(Speech to Text at Smart Conference Room)來簡化此流程,其作用分為二個部分,一、紀錄會議的語音內容,並將其轉為文字,以便公司之後端管理,並對會議內容提供數位內容搜尋。二、即時將影像與字幕合成輸出。發話者可藉由麥克風與攝影機,將談話的內容與影像回傳到接收端,發話的語音可自動轉換為文字,再透過時間軸的關聯性,合成影片與字幕,讓使用者易於了解,同時紀錄關鍵字以供未來搜尋與再製利用。而在影像輸出上,透過本論文所研發的技術,能夠即時將影片結合發話者的內容呈現在字幕上並以即時串流而輸出,更能進一步針對其它語言做轉換,避免非為母語的聆聽者閱讀困難,以利觀看。 |
英文摘要 |
Conferences and Meetings have been popular activities in most companies. The content management of a large number of conferences or meeting has become a big challenge. This thesis intends to build a platform of “Smart Conference Management Platform”. The main functions of the developed platform mainly contains two parts. First, the platform automatically record the meeting video and transfer the voice to texts. Then the platform integrates the texts and video based on the time relation. The develop platform eases the knowledge management for the conferences and meetings. |
第三語言摘要 | |
論文目次 |
目錄 圖目錄 VI 第一章、簡介 1 第二章、概觀 5 第三章、背景知識 7 3.1 Python 7 3.2Flask 8 3.3OpenCV 9 3.4 Open CV Python 10 3.5 FFMpeg 11 3.7 Web Speech 13 3.8 Google 翻譯 13 第四章、系統架構 15 4.1 Web 18 A. 線上語音轉文字 18 4.2 Core 19 A. 網路伺服器模組 19 B. 影片串流模流模組 20 C. 錄影模組 20 D. 錄音模組 20 E. 音訊處理模組 21 F. Subtitle Gen 22 G. 工作線程產生器 24 H. 資料庫模組 27 4.3External 27 A. 播放器 27 B. 轉碼器 28 C. FLAC轉碼器 28 第五章、系統流程與實作 29 5.1在會議室裡單人環境使用時 29 5.2在會議室裡多人環境使用時 31 5.3手機或平板使用情境 32 5.4使用者介面 33 5.5 串流影片伺服器 35 第六章、效能分析比較 37 第七章、結論 39 參考文獻 40 附錄-英文論文 42 圖目錄 圖(1) 即時語音轉換文字在智慧會議室情境 5 圖(2) 直接以影片轉換會議內容之情境 6 圖(3) FFMpeg 流程圖 11 圖(4) MPlayer GUI介面 12 圖(5) Web Speech 13 圖(6) Google Translate 14 圖(7) Google Cloud Platform 14 圖(8) 「即時語音轉換文字」系統架構圖 15 圖(9) 「即時語音轉換文字」系統流程圖 16 圖(10) 「即時語音轉換文字」系統流程圖 17 圖(11) Web Speech 的主要呼叫函式 18 圖(12) 底層Http Request的主要呼叫函式 18 圖(13) Google 翻譯的主要呼叫函式 19 圖(14) Flask伺服器的主程式 20 圖(15) 影片抽取音訊的外部呼外函式 22 圖(16) ASS 字幕範例 23 圖(17) ASS字幕欄位描述 24 圖(18) 等待新進影片的主程式 25 圖(19) OpevCV錄製器的主程式 26 圖(20) OpevCV 播放器的主程式 27 圖(21) SimpleDB的主程式 27 圖(22) 單人在會議室裡使用系統之流程1 29 圖(23) 單人在會議室裡使用系統之流程2 30 圖(24) 多人在會議室裡使用系統之流程1 31 圖(25) 多人在會議室裡使用系統之流程2 32 圖(26)手機上傳影片流程 32 圖(27) 使用者介面之基本功能 33 圖(28) 使用者介面之輸入遠端位址 34 圖(29) 單一影片轉換結果 35 圖(30) 複數影片同時播放 35 圖(31) 簡易型伺服器 36 圖(32) YouTube影片上傳處 37 圖(33) YouTube字幕轉換 38 圖(34) 功能比較 38 |
參考文獻 |
[1] Mu Guo, Deyi Li, Guisheng Chen, “Multi-sensor information fusion for unmanned cars using radar map” IEEE, 2012. [2] Li Li, Binhai Wang, Beidou Li, “The application of image based visual servo control system for smart guard,” IEEE ICCA, 2013. [3] J. Wang, Z. Cheng, L. Jing, Y. Ozawa and Y. Zhou, “A Location-Aware Lifestyle Improvement System to Save Energy in Smart Home,” iCAST, 2012. [4] Youjun Li, Zhijiang Wan, Jiajin Huang, “Application of Internet of Things in Smart Grid Power Transmission,” IEEE, 2016. [5] Q. Ou, Y. Zhen, X, Li, Y. Zhang and L. Zeng, “A Smart Hospital Information System for Mental Disorders” MUSIC, 2012. [6] Chen Xiaojun, Liu Xianpeng, Xu Peng, “IOT-based air pollution monitoring and forecasting system” IEEE 2015. [7] Wepod, http://wepods.com/ [8] Open House, http://openhouse.target.com/app/#/ [9] Living 3.0智慧化居住空間展示中心, http://www.living3.org.tw/ils-museum/ [10] NeoFace, https://www.necam.com/Biometrics/doc.cfm?t=FaceRecognition [11] Anil K. Jain, “A Case Study of Automated Face Recognition: The Boston Marathon Bombings Suspects” IEEE, 2013. [12] Surveillance, http://www.fujitsu.com/cn/en/about/resources/news/press-releases/2015/frdc-0401.html [13] Chih-Hwa Kuo, Che-Hao Chang, “Design and Implementation of Smart Conference Room for Internet of Things”, 2014 [14] BSD 3-Clause License, https://opensource.org/licenses/BSD-3-Clause [15] MATLAB, http://www.mathworks.com/ [16] FFMpeg, http://ffmpeg.org/ [17] MPlayer, http://www.mplayerhq.hu/design7/news.html [18] Web Speech, https://www.google.com/intl/en/chrome/demos/speech.html [19] Google 翻譯, https://translate.google.com.sg/ [20] Google Cloud Platform, https://cloud.google.com/ [21] ASS(Advanced SubStation Alpha), https://www.matroska.org/technical/specs/subtitles/ssa.html [22] FLAC, http://xiph.org/flac/ |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信