§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1802201719592800
DOI 10.6846/TKU.2017.00602
論文名稱(中文) 基於Sphinx之聲音控制以Raspberry pi自走車為例
論文名稱(英文) Voice-control base on Sphinx :Using Raspberry Pi vehicle as an example
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 1
出版年 106
研究生(中文) 戴呈君
研究生(英文) Cheng-Chun Dai
學號 603410936
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2017-01-10
論文頁數 63頁
口試委員 指導教授 - 蔡憶佳(eplusplus@gmail.com)
委員 - 顏淑惠(105390@mail.tku.edu.tw)
委員 - 林慶昌(petani@gmail.com)
關鍵字(中) 語音辨識系統
樹莓派
嵌入式系統
CMUSphinx
關鍵字(英) SpeechRecognition
RaspberryPi
EmbeddedSystem
CMUSphinx
第三語言關鍵字
學科別分類
中文摘要
本論文建立了一個以提供語音辨識服務為基礎的聲音控制系統,實作近幾年來不管是在英國還是其他歐美國家相當流行的raspberry pi3 樹莓派第三代單板電腦,以及結合Arduino、馬達驅動晶片組... 等單板晶片來實現。為達到論文目的我們首要條件就是能讓系統辨識出使用者定義的語言指令,而CMU Sphinx 就能提供使用者需要的條件,挑選其適合在嵌入式系統的版本PocketSphinx 為主軸,利用聲音辨別結果做為控制端。除了語音辨識的重要性,還得學會控制GPIO 來達到載具操控,結合無線遙控以樹莓派作為控制器主體的自製載具,經過PocketSphinx 聲音辨識系統的控制做出載具除了前進、後退、左轉、右轉與原地順時針、逆時針旋轉的動作外還探討了能否聲控自動化以及影像辨識等功能。
英文摘要
In this paper, a voice control system based on speech recognition service is established.The Raspberry Pi single board computer which is popular in the UK or other countries in Europe in recent years. this paper will combine it with the camera , motor drive chipsett and other embedded devices to achieve a variety of voice control.In order to achieve the purpose of the paper, the first is to make the system recognize the user-defined voice commands, and CMUSphinx will be able to provide users with the necessary conditions, select its special developmentin the embedded system version PocketSphinx, and then use voice recognition results as the control end. In addition to the importance of speech recognition,we have to learn to control the GPIO and camera tools, and the combination of wireless remote control to Raspberry Pi as the controller of the main body of the vehicle, through the PocketSphinx voice recognition system control to not only make vehicles forward, backward, left, right but also take pictures and videos ,also discusses whether the voice of automation and image recognition functions
第三語言摘要
論文目次
目錄
Acknowledgements i
論文提要ii
Abstract iii
1 緒論 1
   1.1 研究背景與動機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
   1.2 研究方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
   1.3 論文結果簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 語音辨識系統與工具介紹 5
   2.1 語音辨識工具CMU Sphinx . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
         2.1.1 CMU Sphinx 版本引擎介紹. . . . . . . . . . . . . . . . . . . . . . . 6
                Sphinx-2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
                Sphinx-3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
                Sphinx-4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
                PocketSphinx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
         2.1.2 CMU Sphinx 各代引擎比較. . . . . . . . . . . . . . . . . . . . . . . 8
         2.1.3 CMU Sphinx 系統架構. . . . . . . . . . . . . . . . . . . . . . . . . 8
   2.2 Raspberry pi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
         2.2.1 Raspberry Pi 規格. . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
         2.2.2 Raspberry Pi 無線網路與藍芽. . . . . . . . . . . . . . . . . . . . . . 12
                Wi-Fi 無線網路. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
                Bluetooth 藍芽. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
         2.2.3 Raspberry pi GPIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 研究架構與步驟  16
   3.1 硬體架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
         3.1.1 車體結構與組裝. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
               車體零件選用. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
               L298N 馬達晶片驅動模組. . . . . . . . . . . . . . . . . . . . . . . 19
   3.2 Raspberry Pi 作業系統環境建置. . . . . . . . . . . . . . . . . . . . . . . . . 22
         3.2.1 作業系統選擇. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
   3.3 PocketSphinx 聲音辨識. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
         3.3.1 PocketSphinx 系統架構. . . . . . . . . . . . . . . . . . . . . . . . . 23
         3.3.2 Sphinx Dictionary . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
         3.3.3 Sphinx Language Model . . . . . . . . . . . . . . . . . . . . . . . . . 27
         3.3.4 Sphinx Grammar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
   3.4 PocketSphinx 結合GPIO 控制. . . . . . . . . . . . . . . . . . . . . . . . . . 29
         3.4.1 GPIO 控制. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
         3.4.2 聲音辨識控制. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4 問題改善與探討  33
   4.1 相似音增加提升辨識率. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
         4.1.1 改善結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
   4.2 解決文法衝突. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
         4.2.1 改善結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
   4.3 加入關鍵詞. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 實作與結果  40
   5.1 車體實作結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
   5.2 語音辨識結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
   5.3 其他功能連結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6 結論與展望  44
   6.1 結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
   6.2 未來展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
  參考文獻  46
A 英文研討會論文  49
B 附錄   59
B.1 建置Raspberry Pi SD-Card . . . . . . . . . . . . . . 59
B.2 建置Raspberry Pi 作業系統環境. . . . . . . . . . . . . . . . . . . . . . . . 60
B.3 PocketSphinx 辨識環境建置. . . . . . . . . . . . . . . . . . . . . . . . . . . 62
B.4 Sphinxbase 編譯安裝. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
B.5 PocketSphinx 編譯安裝. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

圖目錄
2.1 Jarvis Server 架構圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 CMU Sphinx 簡易架構圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Raspberry Pi 架構圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Raspberry Pi B+ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5 Raspberry Pi 3 詳細介紹圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1 硬體架構圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 車體零件. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3 杜邦線. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4 L298N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.5 L298N 馬達驅動晶片與Raspberry pi 連結圖. . . . . . . . . . . . . . . . . 21
3.6 Raspberry Pi 官網下載頁面. . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.7 系統架構圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.8 指令集合. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.9 主程式控制流程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.1 原始指令字句範例. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 整合後的指令字句. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 主控制流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.1 實作車體正面. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2 實作車體側面. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3 辨識結果畫面. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.4 手動控制介面. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
B.1 寫入SD 卡. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
B.2 環境功能設定. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

表目錄
2.1 Raspberry Pi 規格. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 802.11 標準. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 藍芽規格. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Pi 3 GPIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1 英文預設音素. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 中、英文字典比較. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 馬達驅動輸入對應方向表. . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 車體方向控制. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1 使用者定義語句. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 相似音範例. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3 Dictionary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4 相似音加入. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
參考文獻
[1] Amazon alexa voice service. [Online]. Available: https://developer.amazon.com/
alexa-voice-service.
[2] Cmu sphinx versions of decoders. [Online]. Available: http://cmusphinx.sourceforge.
net/wiki/versions.
[3] I. V. Duyn, Comparison of voice search applications on ios, 2011. [Online]. Available:
http://www.isaacvanduyn.com/voice_project.shtml.
[4] Google assistant. [Online]. Available: https://assistant.google.com/.
[5] W. Holland, D. May, J. Baca, G. Lazarou, and J. Picone, “A unified language model
architecture for web-based speech recognition grammars”, in 2006 IEEE International
Symposium on Signal Processing and Information Technology, 2006, pp. 294–299.
[6] X. Huang, F. Alleva, H. W. Hon, M. Y. Hwang, and R. Rosenfeld, “The sphinx-ii speech
recognition system: An overview”, in Computer,Speech and Language, vol. 7, 1992,
pp. 137–148.
[7] X. Huang, Y. Ariki, and M. Jack, “An introduction to hidden markov models”, in ASSP
Magazine,IEEE, vol. 3,No.1, 1986, pp. 4–16.
[8] D. Huggins-Daines, M. Kumar, A. Chan, A. Black, M. Ravishankar, and A. Rudnicky,
“Pocketsphinx: A free, real-time continuous speech recognition system for hand-held
devices”, in 2006 IEEE International Conference on Acoustics Speech and Signal Processing
Proceedings, vol. 1, 2006, pp. 1–1.
[9] I. Illina, D. Fohr, and D. Jouvet, “Grapheme-to-phoneme conversion using conditional
random fields”, 2010.
[10] Introduction of raspberry pi 3. [Online]. Available: https://www.raspberrypi.org/
products/raspberry-pi-3-model-b.
[11] Introduction of raspbian. [Online]. Available: https : / / www . raspberrypi . org /
downloads/raspbian/.
[12] D. Jurafsky and J. H. Martin, Speech and language processing: An introduction to natural
language processing, computational linguisticsand speech recognition, 1st. Alan Apt,
1999, pp. 94–95.
[13] P. Lamere, P. Kwok, W. Walker, E. B. Gouvêa, R. Singh, B. Raj, and P. Wolf, “Design of
the cmu sphinx-4 decoder”, in In Proceedings of the 8th European Conference on Speech
Communication and Technology, 2003, pp. 1181–1184.
[14] K. F. Lee, H. W. Hon, M. Y. Hwang, S. Mahajan, and R. Reddy, “The sphinx speech
recognition system”, in International Conference on Acoustics, Speech, and Signal Processing,,
vol. 1, 1989, pp. 445 –448.
[15] K. F. Lee, H. W. Hon, and R. Reddy, “An overview of the sphinx speech recognition
system”, in IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 38,
1990, pp. 35–45.
[16] C.-C. Liu, T.-W. Chiang, and T.-W. Tsai, “Using an n-gram-based mapping approach
to content-based music information retrieval”, in Journal of Science and Engineering
Technology,Vol.3,No.1, 2007, pp. 48–49.
[17] C. Micklisch and H. ElAarag, “Rapibabot: A solution to the inverted pendulum using a
raspberry pi and its gpio”, 2014.
[18] P. Placeway, S. Chen, M. Eskenazi, U. Jain, V. Parikh, B. Raj, M. Ravishankar, R. Rosenfeld,
K. Seymore, M. Siegler, R. Stern, and E. Thayer, “The 1996 hub-4 sphinx-3 system”,
in In Proceedings of the DARPA Speech Recognition Workshop. Chantilly, 1997.[Online]. Available: http://www.nist.gov/speech/publications/darpa97/pdf/placewa1.pdf.
[19] B. Plannerer, “An introduction to speech recognition”,2005.
[20] The arm architecture. [Online]. Available: https://courses.cs.washington.edu/courses/cse466/10au/pdfs/lectures/07-arm_overview.pdf.
[21] M. Zuckerberg, Building-jarvis. [Online]. Available: https://www.facebook.com/notes/mark-zuckerberg/building-jarvis/10154361492931634.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信