淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


系統識別號 U0002-2906201707562900
中文論文名稱 應用機器學習於廣播節目之主題分析
英文論文名稱 Applying machine learning to broadcast subject analysis
校院名稱 淡江大學
系所名稱(中) 資訊管理學系碩士在職專班
系所名稱(英) On-the-Job Graduate Program in Advanced Information Management
學年度 105
學期 2
出版年 106
研究生中文姓名 何文仕
研究生英文姓名 WEN-SHIH HE
學號 704630291
學位類別 碩士
語文別 中文
口試日期 2017-06-04
論文頁數 55頁
口試委員 指導教授-鄭啟斌
委員-魏世杰
委員-林文修
中文關鍵字 廣播節目  KNN  hierarchical clustering 
英文關鍵字 radio programs  KNN  hierarchical clustering 
學科別分類
中文摘要 線上隨選廣播節目提供聽眾一個由自己控制節目撥出時間的收聽選擇,然而如何在浩瀚的節目中找到自己想收聽的節目卻是一大難題。本研究之案例為一線上隨選廣播節目服務網站,其所收錄的節目本身並無節目的相關介紹,目前須依賴人工逐一由節目中分析主題並建立檔案。而節目主題的資訊分析(Analysis of information),必需經由專業的訓練,才能將訊息中的特性、關鍵字製作成可供檢索的內容,以便後續重覆查詢。透過人工處理的方式,不僅成本高昂,且易造成分析結果品質不一。因此,本研究透過語音辨識、網路爬蟲、中文斷詞與機器學習方法,將廣播節目由聲音轉為文字文本,搭配網路爬蟲擷取時事中新創的詞彙,提升萃取文本特徵項的效果,優化文本特徵項的準確性。透過自動化的主題分析可以大幅節省人力並獲得一致品質。本研究同時以階層式分群等演算法,找出各個節目的關聯性,作為節目搜尋的基礎。此一階層性的節目關聯分析可方便使用者了解同一主題之不同觀點與完整的事件報導。
英文摘要 Online on-demand radio programs provide listeners with a choice of time to set aside their own programs, but how to find the program they want to listen to in the vast program is a big challenge. The case of this study is an online on-demand broadcast program service website, which contains the program itself is not related to the program, the current need to rely on the manual one by one in the program analysis and the establishment of the file. The Analysis of information on the subject matter of the program must be professionally trained to produce the characteristics of the message and the keywords to be retrieved for subsequent repetitive inquiries. Through the way of manual processing, not only costly, and easily lead to different quality of the results of the analysis. Therefore, this study transforms the broadcast program from the sound to the text through the speech recognition, the network reptile, the Chinese adverbial and the machine learning method, and uses the web crawler to extract the new words in the current affairs to enhance the effect of extracting the text feature , To optimize the accuracy of text features. Through the analysis of the theme of automation can save a lot of manpower and get consistent quality. In this study, the hierarchical clustering algorithm is used to find out the relevance of each program as the basis of program search. This hierarchical program association analysis facilitates the user to understand the different views of the same subject and the complete event coverage.
論文目次 目錄
目錄 iii
表目錄 v
圖目錄 vi
第一章 緒論 2
第一節 研究背景與動機 2
第二節 研究目的 3
第二章 文獻探討 4
第一節 廣播發展 4
第二節 主題分析 5
第三節 網路爬蟲 7
第四節 語音識別 7
第五節 機器學習 9
第三章 研究方法 10
第一節 研究設計 11
第二節 資料建置 12
第三節 主題分析 15
第四章 系統實作與評估 19
第一節 網路新聞爬蟲 19
第二節 廣播節目語音辨識 21
第三節 文本特徵項 22
第四節 KNN分類 23
第五節 階層式分群 24
第五章 結論與未來方向 28
第一節 研究成果 28
第二節 研究限制 28
第三節 未來方向 28
參考文獻 29
附錄一:語音辨識(音檔一) 31
附錄二:語音辨識(音檔二) 33
附錄三:語音辨識(音檔三) 35
附錄四:語音辨識(音檔四) 37
附錄五:語音辨識(音檔五) 39
附錄六:文本(一) 語音節目1 41
附錄七:文本(二) 語音節目2 42
附錄八:文本(三) 語音節目3 44
附錄九:文本(四) 語音節目4 46
附錄十:文本(五) 語音節目5 47
附錄十一:文本(六) 語音節目6 49
附錄十二:文本(七) 語音節目7 51
附錄十三:文本(八) 語音節目8 53
附錄十四:文本(九) 語音節目9 54
附錄十五:文本(十) 語音節目10 55 


表目錄
表2-1-1聽眾收聽廣播原因 4
表3-3-2 CSV格式轉表格 16
表4-1-1新聞分類統計 21
表4-2-1語音辨識比較 22
表4-3-1加入新聞關鍵字斷詞比較 23
表4-4-1 K值比較 24


圖目錄
圖2-2-1主題分析的方法 7
圖3輸出範例 10
圖3-1-1研究架構 11
圖3-2-1網路新聞範例 12
圖3-2-2網路爬蟲程式流程圖 13
圖3-3-1 KNN示意圖 15
圖3-3-3 Orange工具畫面 17
圖3-3-4 階層式分群主題目錄 18

參考文獻 參考文獻
[1] 馬緒超、李傳健(1997)。文獻主題分析初探。文獻工作研究,5,2。
[2] 陳明來(2002)。主題分析在圖書資訊組織之研究探討。圖書與資訊學刊,42,69-84
[3] 陳敏珍(1996)。主題分析理論與方法之探討。在胡述兆教授七秩榮慶祝壽論文集編輯小組編著,圖書館與資訊研究論集:慶祝胡述兆教授七秩榮慶論文集(頁692):漢美。
[4] 國家教育研究院 關鍵字索引 Key Word In Context Index,簡稱KWIC http://terms.naer.edu.tw/detail/1679551/
[5] 語音識別(speech recognition;語音辨識/言語辨別)
https://zh.wikipedia.org/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB
[6] 分類問題
https://zh.wikipedia.org/wiki/%E5%88%86%E7%B1%BB%E9%97%AE%E9%A2%98
[7] 黃純敏, 陳聰宜, & 詹雅筑. (2014). 新聞事件偵測與追蹤之分群分類演算法研究. 資訊科技國際期刊, 8(1), 70–78.
[8] cosine similarity 餘絃相似度http://terms.naer.edu.tw/detail/1679004/
[9] Cover TM, Hart PE (1967). "Nearest neighbor pattern classification". IEEE Transactions on Information Theory 13 (1): 21–27. doi:10.1109/TIT.1967.1053964.
[10] CSV逗號分隔值https://zh.wikipedia.org/wiki/%E9%80%97%E5%8F%B7%E5%88%86%E9%9A%94%E5%80%BC
[11] G. Salton , A. Wong , C. S. Yang, A vector space model for automatic indexing, Communications of the ACM, v.18 n.11, p.613-620, Nov. 1975
[12] Google Web Speech API Specification
https://dvcs.w3.org/hg/speech-api/raw-file/tip/speechapi.html
[13] Hierarchical clustering
https://en.wikipedia.org/wiki/Hierarchical_clustering
[14] H.P.Luhn, (1958) KWIC (Key Word in Context Index)
https://www.ischool.utexas.edu/~ssoy/organizing/luhn.htm
[15] Jieba Chinese text segmentation
https://github.com/fxsjy/jieba
[16] KNN 最近鄰居法
https://zh.wikipedia.org/wiki/%E6%9C%80%E8%BF%91%E9%84%B0%E5%B1%85%E6%B3%95
[17] Ku Lun-Wei(2000).A Study on the Multilingual Topic Detection of News Articles (Master Dissertation),National Taiwan University Department of Computer Science and Information Engineering
[18] Microsoft Bing Speech API
https://www.microsoft.com/cognitive-services/en-us/speech-api
[19] Microsoft SQL Server 2016 SP1 Express Edition
https://www.microsoft.com/zh-tw/sql-server/sql-server-editions-express
[20] Orange 3.3.8
https://orange.biolab.si/
[21] Web Speech API Demonstration
https://www.google.com/intl/en/chrome/demos/speech.html
[22] Williamson, N.J.(1997). The importance of subject analysis in library and information science education technical service Quarterly,15(1-2),73.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2022-06-29公開。
  • 同意授權瀏覽/列印電子全文服務,於2022-06-29起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信