淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1807201219005400
中文論文名稱 MOBILE01和PTT兩個不同論壇相同面向習慣用詞之探討-以電信、寬頻版為例
英文論文名稱 MOBILE01 and PTT two different forums discussion on the same face habit words - a case study of telecommunications, broadband
校院名稱 淡江大學
系所名稱(中) 資訊工程學系碩士在職專班
系所名稱(英) Department of Computer Science and Information Engineering
學年度 100
學期 2
出版年 101
研究生中文姓名 瞿怡正
研究生英文姓名 Yi-Cheng Chu
學號 799410096
學位類別 碩士
語文別 中文
第二語文別 英文
口試日期 2012-07-05
論文頁數 55頁
口試委員 指導教授-蔣璿東
委員-王鄭慈
委員-葛煥昭
委員-蔣璿東
中文關鍵字 初始詞庫  人工標註 
英文關鍵字 Initial Lexicon  Manual Tagging 
學科別分類 學科別應用科學資訊工程
中文摘要 本論文將針對兩種不同類型的論壇做比較,對相同領域而言,觀察兩種不同類型論壇詞典外的習慣用語是否相同?進而討論(1)利用其中一個較專業和發表與特定領域相關文章較多之論壇所訓練完成的詞庫當作另一論壇的初始詞庫是否有助於準確率和回收率的提升?(2)有了初始詞庫,為節省大量人力,是否可跳過第一階段人工標註的動作,直接利用系統第二階段的動作直接擷取文章中的意見詞或排除字?本論文會利用PTT與Mobile01的電信版和寬頻版來討論上述問題。依據實驗數據顯示,如果使用Mobile01排除字詞庫當初始詞庫,確實可以改善系統的準確率和回收率;但就非冷門的詞庫外意見詞使用習慣而言,PTT和Mobile01使用者的習慣用語仍有些許不同且數量不多,所以即便是使用Mobile01訓練完成的詞庫當作PTT初始詞庫,為了維護較高的準確率和回收率,不建議跳過第一階段人工標註的動作;但如果為了節省人力可以跳過第一階段人工標註的動作,直接利用系統第二階段的動作直接擷取文章中的意見詞或排除字。
英文摘要 This paper compares the forums of two different types to observe whether the idioms/terminologies outside the dictionaries of the two different types of forums are the same for the same field before further discussions (1) whether it is helpful in improving precision and recall to use the trained lexicon of a more professional forum with more published articles relating to a specific field as the initial lexicon of another forum. (2)Using the initial lexicon, this paper attempts to discuss whether the manual tagging operation at the first stage can be skipped to directly capture the opinion words or exclusion words of the articles by using the system operations of the second stage. This paper discusses the above problems by using PTT and Mobile01 telecommunications page and broadband page. According to experimental data, using Mobile01 exclusion words lexicon as the initial lexicon can improve the system precision and recall. However, for the usage of unpopular opinion words outside the lexicon, idioms/phrases of PTT and Mobile01 users may slightly differ in small number. Therefore, even if using the Mobile01 trained lexicon as the PTT initial lexicon, to keep relatively high level of precision and recall, it is not recommended to skip the manual tagging operation of the first stage. However, in order to save manpower, the manual tagging operation of the first stage can be skipped to directly use the system operations of the second stage to directly capture opinion words or exclusion words from the article.
論文目次 第1章 緒論 1
1.1研究動機與目的 1
1.2論文架構 2
第2章 文獻探討 3
2.1定義意見單元(Definition of Opinion Unit) 3
2.2半自動標註(Semi-Automated Tagging)與詞庫式意見擷取方式 5
2.3中文意見探勘系統比較 6
第3章 系統架構 10
3.1系統架構第一階段 11
3.2系統架構第二階段 17
第4章 利用PTT與Mobile01兩種不同類型論壇相同領域的詞典外意見詞和排除字比較 21
4.1電信領域 21
4.2寬頻領域 32
4.3實驗準確率和回收率 41
第5章 為本研究結論以及未來研究的議題 48
5.1結論 48
5.2未來值得研究議題 49
參考文獻 50
附錄-英文論文 52

圖目錄
圖 1 Semi-Automated Tagging 5
圖 2 系統訓練第一步驟 12
圖 3 自動標註系統介面 13
圖 4 系統訓練第二步驟 18
圖 5 OP+1、OP-1排除字 20

表目錄
表 1 kobyayashi et al.(2007)意見元素 3
表 2 意見元素 4
表 3 中文意見探勘研究比較 8
表 4 對應關係 15
表 5 PTT電信領域意見詞數量表 24
表 6 PTT電信領域詞典外意見詞各月交集數量表 26
表 7 PTT電信領域詞典外意見詞沒有交集各月句子輸出數量表 26
表 8 PTT電信領域排除字數量表 27
表 9 PTT電信領域詞典外排除字交集數量表 29
表 10 PTT電信領域有交集且詞典外各月完整句輸出數量 30
表 11 PTT電信領域詞典外排除字沒有交集各月完整句輸出數量表 30
表 12 PTT寬頻領域意見詞數量表 34
表 13 PTT寬頻領域詞典外意見詞各月交集數量表 36
表 14 PTT寬頻領域排除字數量表 37
表 15 PTT寬頻領域詞典外排除字交集數量表 39
表 16 PTT寬頻領域有交集且詞典外各月完整句輸出數量 39
表 17 PTT寬頻領域詞典外排除字沒有交集各月完整句輸出數量表 40
表 18 電信文法配對輸出 42
表 19 電信系統實際輸出 43
表 20 電信領域Mobile01詞庫當PTT初始詞庫,進行二階段擷取文章輸出 43
表 21 電信領域Mobile01詞庫當PTT初始詞庫,直接進行第二階段擷取文章輸出 44
表 22 寬頻領域文法配對輸出 45
表 23 寬頻領域Mobile01詞庫當PTT初始詞庫,直接進行第二階段擷取文章輸出 46
表 24 寬頻領域Mobile01詞庫當 PTT初始詞庫,進行兩階段擷取文章輸出 46
參考文獻 [1] 批踢踢 (Ptt). Available: http://www.ptt.cc/index.html
[2] Mobile01. Available: http://www.mobile01.com/
[3] 簡立, "意見探勘系統設計" 淡江大學資訊工程研究所碩士論文, 2012.
[3] B. Liu, M. Hu, and J. Cheng, "Opinion observer: analyzing and comparing opinions on the Web" 2005, pp. 342-351.
[4] 侯锋, 王传廷, and 李国辉, "网络意见挖掘, 摘要与检索研究综述" 计算机科学, vol. 36, pp. 15-19, 2009.
[5] N. Kobayashi, K. Inui, and Y. Matsumoto "Extracting aspect-evaluation and aspect-of relations in opinion mining," 2007, pp. 1065-1074.
[6] T. Brants, "TnT: a statistical part-of-speech tagger" 2000, pp. 224-231.
[7] J. G. a. S. Conrad, "Opinion mining in legal blogs" Artificial intelligence and law, 2007.
[8] 陳立, "中文情感語意自動分類之研究" 2010.
[9] 段秀婷, 何婷婷, and 宋乐, "基于 PMI-IR 算法的 Blog 情感分类研究" 第五届全国青年计算语言学研讨会论文集, 2010.
[10] 郭伟, "网络电影评论的情感挖掘分析" 吉林大学, 2010.
[11] 赵妍妍, 秦兵, and 刘挺, "文本情感分析综述"
[12] 张清亮 and 徐健, "网络情感词自动识别方法研究" 现代图书情报技术, pp. 24-28, 2011.
[13] E. Brill, "Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging" Computational linguistics, vol. 21, pp. 543-565, 1995.
[14] B. L. M. H. J. Cheng, "Opinion Observer: Analyzing and Comparing Opinions" 2005.
[15] M. Vargas-Vera, E. Motta, J. Domingue, M. Lanzoni, A. Stutt, and F. Ciravegna, "MnM: Ontology driven semi-automatic and automatic support for - 73 – semantic markup" Knowledge Engineering and Knowledge Management: Ontologies and the Semantic Web, pp. 213-221, 2002.
[16] K. Winkler and M. Spiliopoulou, "Semi-automated XML tagging of public text archives: A case study" 2001, pp. 271-285.
[17] 楊盛帆, "以整合式規則來做網路論壇上的3C產品口碑分析" 元智大學資訊管理學系, 2009.
[18] C.-H. Tsai, " Tsai's List of Chinese Words" University of Illinois at Urbana-Champaign, 1996.
[19] 陳永德, "中文斷詞中「長詞優先」、「詞頻對比」、「前詞優先」規則之使用" 國立台灣大學心理學研究所博士論文, 1997.
[20] 邱鴻達, "意見探勘在中文電影評論之應用" 國立交通大學資訊科學與工程研究所, 2011.
[21] 林偉揚, "應用種子詞彙延伸方式於BBS電影評論之口碑分析" 元智大學資訊管理學系, 2011.
[22] S. Maosong, S. Dayang, and H. Changning, "CSeg& Tag1. 0: a practical word segmenter and POS tagger for Chinese texts" 1997, pp. 119-126.
[23] "CKIP AutoTag," Academia Sinica.
http://ckipsvr.iis.sinica.edu.tw/.
[24] 平震孙, " 一個適用於行動裝置的網頁搜尋結果分群系統之研究" 元智大學資訊管理研究所碩士論文, 2007.
[25] D.McClosky,W.Che,M.Recasens,M.Wang,R.Socher,and C.D.Manning "Stanford’s System for Parsing the English Web, "2012
[26] 陳子龍, "中文意見探勘系統之句法分析" 淡江大學資訊工程學系資訊網路與通訊研究所碩士論文, 2012
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2017-07-30公開。
  • 同意授權瀏覽/列印電子全文服務,於2017-07-30起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信