§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2909201609544500
DOI 10.6846/TKU.2016.01060
論文名稱(中文) 在智慧會議室中設計及實作即時語音轉文字技術
論文名稱(英文) Design and Implementation of a Real Time Speech to Text Mechanism for a Smart Conference Room
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士在職專班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 104
學期 2
出版年 105
研究生(中文) 梁詠竣
研究生(英文) Yung-Chun Liang
學號 703410190
學位類別 碩士
語言別 繁體中文
第二語言別 英文
口試日期 2016-07-01
論文頁數 54頁
口試委員 指導教授 - 石貴平(kpshih@mail.tku.edu.tw)
委員 - 蘇民揚
委員 - 張志勇
委員 - 石貴平
關鍵字(中) 物聯網
智慧會議室
語音轉文字
關鍵字(英) IoT
Smart Conference Room
Speech To Text
STT
第三語言關鍵字
學科別分類
中文摘要
開會是一般商務活動重要的一環,提供自動化與智慧化的內容記錄與管理將開會的內容自動內容儲存,將可有效簡化會議的流程及日後的文件整理。
本論文擬建置一「即時語音轉換文字在智慧會議室中」(Speech to Text at Smart Conference Room)來簡化此流程,其作用分為二個部分,一、紀錄會議的語音內容,並將其轉為文字,以便公司之後端管理,並對會議內容提供數位內容搜尋。二、即時將影像與字幕合成輸出。發話者可藉由麥克風與攝影機,將談話的內容與影像回傳到接收端,發話的語音可自動轉換為文字,再透過時間軸的關聯性,合成影片與字幕,讓使用者易於了解,同時紀錄關鍵字以供未來搜尋與再製利用。而在影像輸出上,透過本論文所研發的技術,能夠即時將影片結合發話者的內容呈現在字幕上並以即時串流而輸出,更能進一步針對其它語言做轉換,避免非為母語的聆聽者閱讀困難,以利觀看。
英文摘要
Conferences and Meetings have been popular activities in most companies. The content management of a large number of conferences or meeting has become a big challenge. This thesis intends to build a platform of “Smart Conference Management Platform”. The main functions of the developed platform mainly contains two parts. First, the platform automatically record the meeting video and transfer the voice to texts. Then the platform integrates the texts and video based on the time relation. The develop platform eases the knowledge management for the conferences and meetings.
第三語言摘要
論文目次
目錄
圖目錄	VI
第一章、簡介	1
第二章、概觀	5
第三章、背景知識	7
3.1 Python	7
3.2Flask	8
3.3OpenCV	9
3.4 Open CV Python	10
3.5 FFMpeg	11
3.7 Web Speech	13
3.8 Google 翻譯	13
第四章、系統架構	15
4.1 Web	18
A. 線上語音轉文字	18
4.2 Core	19
A.	網路伺服器模組	19
B.	影片串流模流模組	20
C.	錄影模組	20
D.	錄音模組	20
E.	音訊處理模組	21
F.	Subtitle Gen	22
G.	工作線程產生器	24
H.	資料庫模組	27
4.3External	27
A.	播放器	27
B.	轉碼器	28
C.	FLAC轉碼器	28
第五章、系統流程與實作	29
5.1在會議室裡單人環境使用時	29
5.2在會議室裡多人環境使用時	31
5.3手機或平板使用情境	32
5.4使用者介面	33
5.5 串流影片伺服器	35
第六章、效能分析比較	37
第七章、結論	39
參考文獻	40
附錄-英文論文	42
 
圖目錄
圖(1) 即時語音轉換文字在智慧會議室情境	5
圖(2) 直接以影片轉換會議內容之情境	6
圖(3) FFMpeg 流程圖	11
圖(4) MPlayer GUI介面	12
圖(5) Web Speech	13
圖(6) Google Translate	14
圖(7) Google Cloud Platform	14
圖(8) 「即時語音轉換文字」系統架構圖	15
圖(9) 「即時語音轉換文字」系統流程圖	16
圖(10) 「即時語音轉換文字」系統流程圖	17
圖(11) Web Speech 的主要呼叫函式	18
圖(12) 底層Http Request的主要呼叫函式	18
圖(13) Google 翻譯的主要呼叫函式	19
圖(14) Flask伺服器的主程式	20
圖(15) 影片抽取音訊的外部呼外函式	22
圖(16) ASS 字幕範例	23
圖(17) ASS字幕欄位描述	24
圖(18) 等待新進影片的主程式	25
圖(19) OpevCV錄製器的主程式	26
圖(20) OpevCV 播放器的主程式	27
圖(21) SimpleDB的主程式	27
圖(22) 單人在會議室裡使用系統之流程1	29
圖(23) 單人在會議室裡使用系統之流程2	30
圖(24) 多人在會議室裡使用系統之流程1	31
圖(25) 多人在會議室裡使用系統之流程2	32
圖(26)手機上傳影片流程	32
圖(27) 使用者介面之基本功能	33
圖(28) 使用者介面之輸入遠端位址	34
圖(29) 單一影片轉換結果	35
圖(30) 複數影片同時播放	35
圖(31) 簡易型伺服器	36
圖(32) YouTube影片上傳處	37
圖(33) YouTube字幕轉換	38
圖(34) 功能比較	38
參考文獻
[1]	Mu Guo, Deyi Li, Guisheng Chen, “Multi-sensor information fusion for unmanned cars using radar map” IEEE, 2012.
[2]	Li Li, Binhai Wang, Beidou Li, “The application of image based visual servo control system for smart guard,” IEEE ICCA, 2013.
[3]	J. Wang, Z. Cheng, L. Jing, Y. Ozawa and Y. Zhou, “A Location-Aware Lifestyle Improvement System to Save Energy in Smart Home,” iCAST, 2012. 
[4]	Youjun Li, Zhijiang Wan, Jiajin Huang, “Application of Internet of Things in Smart Grid Power Transmission,” IEEE, 2016.
[5]	Q. Ou, Y. Zhen, X, Li, Y. Zhang and L. Zeng, “A Smart Hospital Information System for Mental Disorders” MUSIC, 2012.
[6]	Chen Xiaojun, Liu Xianpeng, Xu Peng, “IOT-based air pollution monitoring and forecasting system” IEEE 2015.
[7]	Wepod, http://wepods.com/
[8]	Open House, http://openhouse.target.com/app/#/
[9]	Living 3.0智慧化居住空間展示中心, http://www.living3.org.tw/ils-museum/
[10]	NeoFace, https://www.necam.com/Biometrics/doc.cfm?t=FaceRecognition
[11]	Anil K. Jain, “A Case Study of Automated Face Recognition: The Boston Marathon Bombings Suspects” IEEE, 2013. 
[12]	Surveillance, http://www.fujitsu.com/cn/en/about/resources/news/press-releases/2015/frdc-0401.html
[13]	Chih-Hwa Kuo, Che-Hao Chang, “Design and Implementation of Smart Conference Room for Internet of Things”, 2014
[14]	BSD 3-Clause License, https://opensource.org/licenses/BSD-3-Clause
[15]	MATLAB, http://www.mathworks.com/
[16]	FFMpeg, http://ffmpeg.org/
[17]	MPlayer, http://www.mplayerhq.hu/design7/news.html
[18]	Web Speech, https://www.google.com/intl/en/chrome/demos/speech.html
[19]	Google 翻譯, https://translate.google.com.sg/
[20]	Google Cloud Platform, https://cloud.google.com/
[21]	ASS(Advanced SubStation Alpha), https://www.matroska.org/technical/specs/subtitles/ssa.html
[22]	FLAC, http://xiph.org/flac/
論文全文使用權限
校內
紙本論文於授權書繳交後5年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後5年公開
校外
同意授權
校外電子論文於授權書繳交後5年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信