§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2707202112194700
DOI 10.6846/TKU.2021.00748
論文名稱(中文) 基於長短期記憶模型之違規廣告及違規詞識別技術
論文名稱(英文) Recognition Technology of Illegal Advertisements and Illegal Words Based on Long Short-Term Memory Model
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士在職專班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 109
學期 2
出版年 110
研究生(中文) 呂景翔
研究生(英文) Ching-Hsiang Lu
學號 707410089
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2021-07-16
論文頁數 44頁
口試委員 指導教授 - 張志勇
共同指導教授 - 石貴平
委員 - 游國忠
委員 - 廖文華
關鍵字(中) 合法字詞識別
違法字詞識別
LSTM
關鍵字(英) Legal word recognition
Illegal Word recognition
LSTM
第三語言關鍵字
學科別分類
中文摘要
網路時代的來臨,也意味著傳統廣告行銷的大遷徙,廣告的投放開始轉向可以帶來更大流量的社群媒體如:Google、Facebook、Youtube。然而,隨著行銷環境的改變,社群媒體的即時性及高自由度也帶來了許多問題,違規廣告案件層出不窮,其中尤以食品、藥物及化妝品廣告為大宗,同時食品藥物管理署對於涉及誇張或易生誤解的詞句之標準認定不易區分,如涉及誇張、易生誤解或醫療效能的「增強抵抗力」、「強化細胞功能」、「解酒」等,與食品藥物管理署認定「可使用」詞句像是「幫助牙齒骨骼正常發育」、「幫助消化」、「改變細菌叢生態」、「使排便順暢」及「調整體質」、「青春美麗」等,訂定的標準不易判斷是否違規,消費者較難辨別這樣的宣稱是不是誇大不實,也因此造成食品醫療廣告違規數居高不下。
大部分違規事項是刻意針對療效進行誇大不實的宣傳,意圖誘使消費者購買,綜上所述歸納出幾點問題如下 :
1.	針對食品醫藥廣告違規,目前我國法令採事後裁罰,由執法人員人工審查認定,難以即時發現違規廣告並且效率過低。
2.	食品醫藥廣告用語繁多,以人工審查核定難免過於主觀,造成業者難以預料廣告是否違規。
3.	各縣市都有發布違規廣告相關資訊的平台,但是沒有整合違規廣告詞的地方,方便使用者確認是否違規
本研究將針對這三點問題設計食品醫藥違規廣告偵測流程與方法,並進行一系列實驗驗證其流程與方法的正確性。
英文摘要
The advent of the Internet era causes a great migration of traditional advertising marketing. The advertisement has been shift to social media such as Google, Facebook, and Youtube that can bring more traffic. However, with the changes in the marketing environment, the immediacy and high degree of freedom of social media have also brought many problems, and cases of illegal advertising have emerged one after another, especially food, drug and cosmetics advertising. To identify the exaggerated or misunderstood words and sentences are not easy, such as "enhancing resistance", "strengthening cell function", "relieving alcohol", etc., which involve exaggeration, misunderstanding, or medical efficacy. The phrases such as "help the normal development of teeth and bones", "help digestion", "change the ecology of the bacterial flora", "make defecation smoother" and "adjust physical fitness", "beauty and youth", etc are also difficult to identify whether or not the advertising are illegal. 
This thesis aims to investigate the following issues:
1. Regarding food and medicine advertising violations, the current Chinese laws and regulations adopt post-mortem penalties, which are manually reviewed and determined by law enforcement personnel. It is difficult to find illegal advertisements immediately and the efficiency is too low.
2. There are so many words in food and medicine advertisements, and manual review and approval is inevitably too subjective, making it difficult for the industry to predict whether the advertisement is in violation of regulations.
3. Each county and city has a platform for publishing information about illegal advertisements, but there is no place to integrate illegal advertisements to facilitate users to confirm whether they are in violation
This research will design the food and medicine illegal advertising detection process and method for the three issues, and conduct a series of experiments to verify the correctness of the process and method.
第三語言摘要
論文目次
第一章、緒論	1
1-1 研究背景與動機	1
1-2 研究目的	4
1-3 研究貢獻	4
1-4 章節架構	5
第二章、文獻回顧	7
2-1 機器學習方法	7
2-2 深度學習方法	8
2-3 整合型偵測框架	10
第三章、研究方法	14
3-1 研究流程	14
3-2 資料探勘	15
3-3資料預處理	15
3-3-1斷詞斷句	15
3-3-2文字雲分析	18
3-4 模型訓練	20
3-4-1 CBOW模型	20
3-4-2 Skip-gram模型	21
3-5 深度學習模型	22
3-5-1 LSTM模型	23
第四章、系統架構	25
4-1 系統架構	25
4-1-1 斷詞斷句	27
4-1-2 詞向量模型	28
4-1-3 LSTM模型	31
4-1-4 輸出結果	34
4-2 使用者介面	35
第五章、實證結果分析	36
5-1神經網絡模型訓練結果分析	36
5-2神經網絡模型預測結果分析	37
第六章、結論及建議	41
6-1結論	41
6-2後續研究建議	41
參考文獻	43

圖目錄
圖 1食品廣告違規識別系統之研究流程圖	14
圖 2 Jieba中文斷詞程式範例	16
圖 3 Jieba中文斷詞程式結果範例	17
圖 4文字雲程式範例	18
圖 5合法廣告文字雲輸出範例	19
圖 6違規廣告文字雲輸出範例	19
圖 7 CBOW模型預測示意圖	21
圖 8 Skip-gram模型預測示意圖	22
圖 9 LSTM模型	24
圖 10系統架構圖	26
圖 11斷詞斷句程式	27
圖 12斷詞斷句	28
圖 13 Word2vec程式	29
圖 14詞向量模型	30
圖 15 Bidirectional LSTM模型	32
圖 16 LSTM模型程式	33
圖 17 LSTM模型訓練輸出	33
圖 18違法廣告輸出結果	34
圖 19合法廣告輸出結果	34
圖 20使用者介面	35
圖 21 LSTM模型遺失率(Loss)	37
圖 22 LSTM模型準確率(Accuracy)	39
圖 23 LSTM模型精確率(Precision)	39
圖 24 LSTM模型召回率(Recall)	40

表目錄
表 1相關研究整理	12
表 2合法字詞相似度比較表	30
表 3違法字詞相似度比較表	31
表 4混淆矩陣	38
參考文獻
[1] Nasir, J. A., Khan, O. S., & Varlamis, I. (2021). Fake news detection: A hybrid CNN-RNN based deep learning approach. International Journal of Information Management Data Insights, 1(1), 100007.
[2] Liu, Z., Li, K., Tan, X., & Chen, J. (2020). IAD: A Benchmark Dataset and a New Method for Illegal Advertising Classification. In ECAI 2020 (pp. 2085-2092). IOS Press.
[3] Karimi, H., & Tang, J. (2019). Learning hierarchical discourse-level structure for fake news detection. arXiv preprint arXiv:1903.07389.
[4] Khan, J. Y., Khondaker, M., Islam, T., Iqbal, A., & Afroz, S. (2019). A benchmark study on machine learning methods for fake news detection. arXiv preprint arXiv:1905.04749.
[5] Zhao, F., Skums, P., Zelikovsky, A., Sevigny, E. L., Swahn, M. H., Strasser, S. M., & Wu, Y. (2019, June). Detecting Illicit Drug Ads in Google+ Using Machine Learning. In International Symposium on Bioinformatics Research and Applications (pp. 171-179). Springer, Cham.
[6] Ahmed, H., Traore, I., & Saad, S. (2018). Detecting opinion spams and fake news using text classification. Security and Privacy, 1(1), e9.
[7] Wang, W. Y. (2017). " liar, liar pants on fire": A new benchmark dataset for fake news detection. arXiv preprint arXiv:1705.00648.
[8] Ruchansky, N., Seo, S., & Liu, Y. (2017, November). Csi: A hybrid deep model for fake news detection. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (pp. 797-806).
[9] Ma, J., Gao, W., Mitra, P., Kwon, S., Jansen, B. J., Wong, K. F., & Cha, M. (2016). Detecting rumors from microblogs with recurrent neural networks.
[10] Hand, D. J., & Adams, N. M. (2014). Data mining. Wiley StatsRef: Statistics Reference Online, 1-7.
[11] Kausar, M. A., Dhaka, V. S., & Singh, S. K. (2013). Web crawler: a review. International Journal of Computer Applications, 63(2).
[12] Hochreiter, S., & Schmidhuber, J. (1997). LSTM can solve hard long time lag problems. Advances in neural information processing systems, 473-479.
[13] Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. nature, 323(6088), 533-536.
[14] 林昆賢, & 蔡俊明. (2019). 基於深度學習的自然語言處理中預訓練 Word2Vec 模型的研究. 國教新知, 66(1), 15-31.
[15] 洪學儒(2017)。基於Word2Vec字詞向量模型之熱門主題偵測與命名方法。國立臺北科技大學資訊工程系所碩士論文,台北市。 取自https://hdl.handle.net/11296/r266k5
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信