§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2606201721311300
DOI 10.6846/TKU.2017.00938
論文名稱(中文) 以社群網路分析進行流感趨勢預測
論文名稱(英文) Flu Trend Prediction based on Network Community Analysis
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 2
出版年 106
研究生(中文) 周書任
研究生(英文) SHU-REN,JHOU
學號 604630110
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2017-06-04
論文頁數 43頁
口試委員 指導教授 - 張昭憲
委員 - 壽大衛
委員 - 魏世杰
委員 - 張昭憲
關鍵字(中) 流感監測
社群網路分析
線性迴歸
模型融合
關鍵字(英) influenza surveillance
social network analysis
linear regression
model fusion.
第三語言關鍵字
學科別分類
中文摘要
流行性感冒每年對全球民眾帶來嚴重的健康威脅,根據WHO統計,全世界流感年度流行造成約300萬嚴重病例及約25萬人死亡。針對流感的威脅,需提早預防,才能有效控制疫情的擴展。為監測流感疫情,各國疾管局通常藉由臨床就診通報來彙整資料,可能產生一至二週的延遲,對於流感這類型快速傳播的疾病顯然緩不濟急。為提供有效的流感就診率預測,本研究蒐集Twitter社群之發言與Google熱門關鍵字搜尋資料,配合官方提供的實際流感就診率,分別建立線性預測模型。此外,考量流感疫情可能會因潛伏期造成的延遲,亦將延遲因素納入,以降低預測延遲的產生。為進一步提升預測準確率,本研究嘗試採用模型融合概念,將多種模型的預測結果加以組合,以提升預測的穩定性。實驗結果顯示,在回溯週數為4週的前提下,Twitter模型相關度達0.87,Google關鍵字搜尋熱度模型相關度亦可達0.78。當考量延遲因子時,則以Google關鍵字熱度延遲模型之關聯度最高(0.868)。對於模型融合,當以前一年資料進行塑模時,後一年之預測相關度亦可達0.84。上述結果顯示,本研究利用社群網路資料建立之預測模型,確能補足官方數據延遲之缺陷,提供可接受之預測準確率。
英文摘要
Every year, influenza (flu) threats to the health of the world’s population. According to the World Health Organisation (WHO) statistics, annual epidemics of influenza caused about 3,000,000 severe cases and killed around 250,000 people. For the threat of influenza, early prevention is necessary to effectively controlling the expansion of epidemic.To monitor flu epidemic situation, Center of disease control in every country usually integrates information with clinical diagnosis, which may possibly delayed for one to two weeks, apparently it is not fast enough to limit the rapid spread of influenza. In order to provide timely and accurate forecast for consultation rate, this study will utilise data from Twitter and Google Keyword Research, and established two sets of linear regression based model by combining the actual data from WHO statistics. Moreover, taking into account of incubation period, time factor will also be included to reduce the impact of delayed. To improve the measurement, this study fusing multi-models to achieve a better predictive result. Assume the backtrace period is four weeks, the actual relative value for prediction model of Twitter is 0.87 while the model of Google Keyword Model is 0.78. If time delayed is included, the actual relative value of Google Keyword Delayed Model is 0.868 which is the best among others. For the fusion of multi-models, the actual relative value can reach to 0.84 by using the data from the previous year. Based on the above results, this study can establish prediction model based on network community data and provide acceptable accuracy to fill up the lack of official data latency.
第三語言摘要
論文目次
目錄
 第一章 緒論	1
1.1	研究背景	1
1.2	研究動機	1
1.3	研究貢獻	3
 第二章 文獻探討	5
2.1	流感與傳統監測系統	5
2.2	運用社群網路分析進行流感監測	6
2.3	線性迴歸	7
2.4	Google關鍵字搜尋熱度	7
 第三章 研究方法	10
3.1	資料蒐集	10
3.2	建立Twitter流感就診率預測模型	12
3.3	以Google關鍵字搜尋熱度建立預測模型	14
3.4	延遲模型	15
3.5	模型融合	16
3.6	模型效能評估	18
 第四章 實驗結果	20
4.1	關鍵詞集對預測準確率之影響	20
4.2	模型訓練集回溯週數大小選擇	22
4.3	依照相關度選取記錄	23
4.4	Tweets篩選過濾	24
4.5	Google關鍵字搜尋熱度模型	26
4.6	延遲模型	27
4.7	模型融合	29
4.8	背景值與均方根誤差	31
 第五章 結論與未來工作	33
參考文獻	35
 附錄	37
預測數據	37

 
表目錄
表 1 : 第53-82週各模型相關係數比較	31
表 2 : 背景值	32
表 3 : Google 延遲模型	32
表 4 : 研究過濾字集預測數據	37
表 5 : Lampos字集預測數據	38
表 6 : 模型訓練集長度選擇數據	39
表 7 : 依相關度選擇資料點數據	40
表 8 : Tweets篩選過濾數據	41
表 9 : Google關鍵字搜尋熱度模型	42
表 10 : 延遲模型	43
 
 
圖目錄
圖 2 1 : Google關鍵字搜尋熱度範例	8
圖 3 1 : 每日蒐集之單則Tweets	11
圖 3 2 : 關鍵字flu在時間內的搜尋熱度	11
圖 3 3 : 英國官方統計數據	12
圖 3 4 : 以前四週資料建立流感就診率迴歸預測模型	19
圖 3 5 : 以前四週資料建立關鍵字搜尋熱度模型	19
圖 4 1 : Lampos字集迴歸模型預測	21
圖 4 2 : 研究過濾字集迴歸模型預測	21
圖 4 3 : 以前3週進行迴歸建模之預測結果	22
圖 4 4 : 以前4週進行迴歸建模	23
圖 4 5 : 以前8週進行迴歸建模	23
圖 4 6: 依照相關度選取資料點	24
圖 4 7: 建模前,先對Tweets篩選過濾之預測結果	25
圖 4 8 : Google關鍵字搜尋熱度模型	26
圖 4 9 : Twitter延遲模型(d=1)	27
圖 4 10 : Twitter延遲模型(d=2)	28
圖 4 11 : Google搜尋熱度延遲模型(d=1)	28
圖 4 12 : Google搜尋熱度延遲模型(d=2)	29
圖 4 13 : 模型融合(Using Training Set)	29
圖 4 14 : 模型融合(前一年預測今年)	30
圖 4 15 : 53-82週各模型相關係數比較	31
參考文獻
1. World Health Organization (WHO).Url: http://www.who.int/mediacentre/factsheets/fs211/en/
2. 衛生福利部疾病管制署(CDC).傳統監測系統概述.Url: http://www.cdc.gov.tw/professional/info.aspx?treeid=075874dc882a5bfd&nowtreeid=c77f1f2594bf7f1e&tid=773ACE6B84874DB9
3. B.Aditya Prakash.”Prediction Using Propagation:From Flu Trends to Cybersecurity”.IEEE Computer Society(2016):84-88.
4. Batuhan Bardak,Mehmet Tan.” Prediction of influenza outbreaks by integrating Wikipedia article access logs and Google flu trend data”. Bioinformatics and Bioengineering (BIBE), 2015 IEEE 15th International Conference.
5. Kenny Byrd, Alisher Mansurov,Olga Baysal. “Mining Twitter Data for Influenza Detection and Surveillance”. 2016 IEEE/ACM International Workshop.
6. Sangeeta Grover,Gagangeet Singh Aujla. “Twitter data based prediction model for influenza epidemic”. 2015 2nd International Conference:879-879.
7. Vasileios Lampos,Nello Cristianini.” Tracking the flu pandemic by monitoring the Social Web”. 2010 2nd International Workshop:411-416.
8. Ian Witten,Eibe Frank,Mark Hall.” Data Mining: Practical Machine Learning Tools and Techniques 3rd Edition”.2011.
9. Jiawei Han,Micheline Kamber,Jian Pei.郝沛毅,李御璽,黃嘉彥編譯.”資料探勘 Data Mining Concept and Techniques 3/e”.2014.
10. Eysenbach, G., “Infodemiology: tracking flu-related searches on the web for syndromic surveillance”, AMIA: Annual Symposium Proceedings 244–248 (2006).
11. Johnson HA, Wagner MM, Hogan WR, Chapman W, Olszewski RT, Dowling J, Barnas G., “Analysis of Web access logs for surveillance of influenza.”, MEDINFO, 1202–1206 (2004).
12. Hulth, A., Rydevik, G. & Linde, A., “Web Queries as a Source for Syndromic Surveillance”, PLoS ONE 4(2): e4378. doi:10.1371/journal.pone.0004378 (2009).
13. Polgreen, P. M., Chen, Y., Pennock, D. M. & Forrest, N. D., “Using internet searches for influenza surveillance”, Clinical Infectious Diseases 47, 1443–1448, (2008).
14. Fox, S., “Online Health Search 2006” , Pew Internet & American Life Project (2006)
15. Lampos, V., and Cristianini, N., Nowcasting Event from the Social Web with Statistical Learning, ACM Trans. On Intelligent Systems and Technology, Vol. 3, No. 4, Sep. 2012, pp. 72:1~72:22.
16. Akay, A., et al., A Novel Data-Mining Approach Leveraging Social Media to Monitor Consumer Opinion of Sitagliptin, IEEE Journal of Biomedical and Health Informatics, Vol. 19, No. 1, Jan. 2015, pp. 389-396.
17. Lampos, V., Preotiuc-Pietro, D., and Cohn, T., A user-centric model of voting intention from social media, The 51st annual meeting of the association for computational linguistics, 2013, pp. 993-1003.
18. He, W., Zha S., and Li, L., Social media competitive analysis and text mining: A case study in the pizza industry, International Journal of Information Management, vol. 33, 2013, pp. 464-472.
19. GoogleTrend搜尋趨勢.探索.Url
https://trends.google.com.tw/trends/explore
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後2年公開
校外
同意授權
校外電子論文於授權書繳交後2年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信