淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2707202112194700
中文論文名稱 基於長短期記憶模型之違規廣告及違規詞識別技術
英文論文名稱 Recognition Technology of Illegal Advertisements and Illegal Words Based on Long Short-Term Memory Model
校院名稱 淡江大學
系所名稱(中) 資訊工程學系碩士在職專班
系所名稱(英) Department of Computer Science and Information Engineering
學年度 109
學期 2
出版年 110
研究生中文姓名 呂景翔
研究生英文姓名 Ching-Hsiang Lu
學號 707410089
學位類別 碩士
語文別 中文
口試日期 2021-07-16
論文頁數 44頁
口試委員 指導教授-張志勇
共同指導教授-石貴平
委員-游國忠
委員-廖文華
中文關鍵字 合法字詞識別  違法字詞識別  LSTM 
英文關鍵字 Legal word recognition  Illegal Word recognition  LSTM 
學科別分類 學科別應用科學資訊工程
中文摘要 網路時代的來臨,也意味著傳統廣告行銷的大遷徙,廣告的投放開始轉向可以帶來更大流量的社群媒體如:Google、Facebook、Youtube。然而,隨著行銷環境的改變,社群媒體的即時性及高自由度也帶來了許多問題,違規廣告案件層出不窮,其中尤以食品、藥物及化妝品廣告為大宗,同時食品藥物管理署對於涉及誇張或易生誤解的詞句之標準認定不易區分,如涉及誇張、易生誤解或醫療效能的「增強抵抗力」、「強化細胞功能」、「解酒」等,與食品藥物管理署認定「可使用」詞句像是「幫助牙齒骨骼正常發育」、「幫助消化」、「改變細菌叢生態」、「使排便順暢」及「調整體質」、「青春美麗」等,訂定的標準不易判斷是否違規,消費者較難辨別這樣的宣稱是不是誇大不實,也因此造成食品醫療廣告違規數居高不下。
大部分違規事項是刻意針對療效進行誇大不實的宣傳,意圖誘使消費者購買,綜上所述歸納出幾點問題如下 :
1. 針對食品醫藥廣告違規,目前我國法令採事後裁罰,由執法人員人工審查認定,難以即時發現違規廣告並且效率過低。
2. 食品醫藥廣告用語繁多,以人工審查核定難免過於主觀,造成業者難以預料廣告是否違規。
3. 各縣市都有發布違規廣告相關資訊的平台,但是沒有整合違規廣告詞的地方,方便使用者確認是否違規
本研究將針對這三點問題設計食品醫藥違規廣告偵測流程與方法,並進行一系列實驗驗證其流程與方法的正確性。
英文摘要 The advent of the Internet era causes a great migration of traditional advertising marketing. The advertisement has been shift to social media such as Google, Facebook, and Youtube that can bring more traffic. However, with the changes in the marketing environment, the immediacy and high degree of freedom of social media have also brought many problems, and cases of illegal advertising have emerged one after another, especially food, drug and cosmetics advertising. To identify the exaggerated or misunderstood words and sentences are not easy, such as "enhancing resistance", "strengthening cell function", "relieving alcohol", etc., which involve exaggeration, misunderstanding, or medical efficacy. The phrases such as "help the normal development of teeth and bones", "help digestion", "change the ecology of the bacterial flora", "make defecation smoother" and "adjust physical fitness", "beauty and youth", etc are also difficult to identify whether or not the advertising are illegal.
This thesis aims to investigate the following issues:
1. Regarding food and medicine advertising violations, the current Chinese laws and regulations adopt post-mortem penalties, which are manually reviewed and determined by law enforcement personnel. It is difficult to find illegal advertisements immediately and the efficiency is too low.
2. There are so many words in food and medicine advertisements, and manual review and approval is inevitably too subjective, making it difficult for the industry to predict whether the advertisement is in violation of regulations.
3. Each county and city has a platform for publishing information about illegal advertisements, but there is no place to integrate illegal advertisements to facilitate users to confirm whether they are in violation
This research will design the food and medicine illegal advertising detection process and method for the three issues, and conduct a series of experiments to verify the correctness of the process and method.
論文目次 第一章、緒論 1
1-1 研究背景與動機 1
1-2 研究目的 4
1-3 研究貢獻 4
1-4 章節架構 5
第二章、文獻回顧 7
2-1 機器學習方法 7
2-2 深度學習方法 8
2-3 整合型偵測框架 10
第三章、研究方法 14
3-1 研究流程 14
3-2 資料探勘 15
3-3資料預處理 15
3-3-1斷詞斷句 15
3-3-2文字雲分析 18
3-4 模型訓練 20
3-4-1 CBOW模型 20
3-4-2 Skip-gram模型 21
3-5 深度學習模型 22
3-5-1 LSTM模型 23
第四章、系統架構 25
4-1 系統架構 25
4-1-1 斷詞斷句 27
4-1-2 詞向量模型 28
4-1-3 LSTM模型 31
4-1-4 輸出結果 34
4-2 使用者介面 35
第五章、實證結果分析 36
5-1神經網絡模型訓練結果分析 36
5-2神經網絡模型預測結果分析 37
第六章、結論及建議 41
6-1結論 41
6-2後續研究建議 41
參考文獻 43

圖目錄
圖 1食品廣告違規識別系統之研究流程圖 14
圖 2 Jieba中文斷詞程式範例 16
圖 3 Jieba中文斷詞程式結果範例 17
圖 4文字雲程式範例 18
圖 5合法廣告文字雲輸出範例 19
圖 6違規廣告文字雲輸出範例 19
圖 7 CBOW模型預測示意圖 21
圖 8 Skip-gram模型預測示意圖 22
圖 9 LSTM模型 24
圖 10系統架構圖 26
圖 11斷詞斷句程式 27
圖 12斷詞斷句 28
圖 13 Word2vec程式 29
圖 14詞向量模型 30
圖 15 Bidirectional LSTM模型 32
圖 16 LSTM模型程式 33
圖 17 LSTM模型訓練輸出 33
圖 18違法廣告輸出結果 34
圖 19合法廣告輸出結果 34
圖 20使用者介面 35
圖 21 LSTM模型遺失率(Loss) 37
圖 22 LSTM模型準確率(Accuracy) 39
圖 23 LSTM模型精確率(Precision) 39
圖 24 LSTM模型召回率(Recall) 40

表目錄
表 1相關研究整理 12
表 2合法字詞相似度比較表 30
表 3違法字詞相似度比較表 31
表 4混淆矩陣 38
參考文獻 [1] Nasir, J. A., Khan, O. S., & Varlamis, I. (2021). Fake news detection: A hybrid CNN-RNN based deep learning approach. International Journal of Information Management Data Insights, 1(1), 100007.
[2] Liu, Z., Li, K., Tan, X., & Chen, J. (2020). IAD: A Benchmark Dataset and a New Method for Illegal Advertising Classification. In ECAI 2020 (pp. 2085-2092). IOS Press.
[3] Karimi, H., & Tang, J. (2019). Learning hierarchical discourse-level structure for fake news detection. arXiv preprint arXiv:1903.07389.
[4] Khan, J. Y., Khondaker, M., Islam, T., Iqbal, A., & Afroz, S. (2019). A benchmark study on machine learning methods for fake news detection. arXiv preprint arXiv:1905.04749.
[5] Zhao, F., Skums, P., Zelikovsky, A., Sevigny, E. L., Swahn, M. H., Strasser, S. M., & Wu, Y. (2019, June). Detecting Illicit Drug Ads in Google+ Using Machine Learning. In International Symposium on Bioinformatics Research and Applications (pp. 171-179). Springer, Cham.
[6] Ahmed, H., Traore, I., & Saad, S. (2018). Detecting opinion spams and fake news using text classification. Security and Privacy, 1(1), e9.
[7] Wang, W. Y. (2017). " liar, liar pants on fire": A new benchmark dataset for fake news detection. arXiv preprint arXiv:1705.00648.
[8] Ruchansky, N., Seo, S., & Liu, Y. (2017, November). Csi: A hybrid deep model for fake news detection. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (pp. 797-806).
[9] Ma, J., Gao, W., Mitra, P., Kwon, S., Jansen, B. J., Wong, K. F., & Cha, M. (2016). Detecting rumors from microblogs with recurrent neural networks.
[10] Hand, D. J., & Adams, N. M. (2014). Data mining. Wiley StatsRef: Statistics Reference Online, 1-7.
[11] Kausar, M. A., Dhaka, V. S., & Singh, S. K. (2013). Web crawler: a review. International Journal of Computer Applications, 63(2).
[12] Hochreiter, S., & Schmidhuber, J. (1997). LSTM can solve hard long time lag problems. Advances in neural information processing systems, 473-479.
[13] Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. nature, 323(6088), 533-536.
[14] 林昆賢, & 蔡俊明. (2019). 基於深度學習的自然語言處理中預訓練 Word2Vec 模型的研究. 國教新知, 66(1), 15-31.
[15] 洪學儒(2017)。基於Word2Vec字詞向量模型之熱門主題偵測與命名方法。國立臺北科技大學資訊工程系所碩士論文,台北市。 取自https://hdl.handle.net/11296/r266k5
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2021-08-02公開。
  • 同意授權瀏覽/列印電子全文服務,於2021-08-02起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2487 或 來信 dss@mail.tku.edu.tw