虛擬講堂進入演講
講 題即時空氣品質及類流感資料儲存與處理平台之研製
講 者東海大學資訊工程學系,東海大學計算機中心,臺中榮民總醫院,靜宜大學資訊管理學系-王元廷
日 期2017/10/27長 度00:10:53人 氣140 次
摘 要
在2015年底,台中市境內11處監測站,發生同時有9處監測站超標。此外,類流感疾病統計人數也逐漸增加。為了瞭解空氣品質與類流感之關聯性,本研究建立整合空氣品質與類流感資料的大數據平台。實作方面,第一,建立一個叢集儲存(HDFS)與Spark環境作運算,使用ELK Stack作為視覺化平台與Ceph Object Storage作為資料備份。第二,串接Open Data API自動導入空氣品質與類流感資料至MySQL。研究中遇到些問題。首先,關聯式資料庫造成I/O效能不好。因此,本研究使用索引方式達到兩倍的讀寫效能。在Sqoop工具環境,一般應用只能將原始資料切割成為多分檔案。但是,切成多分檔案也增加傳輸時間。因此,本研究使用「with direction」方法與切成多份檔案的組合可以達到同樣的效能。最後本研究使用Spark,並使用Alluxio加速存取資料。資料儲存在HDFS,自動傳輸到Alluxio記憶體中。讓Spark在記憶體讀取更加快速。最終由ELK Stack將空氣品質資料及類流感資料匯入,並透過此平台視覺化分析,我們觀察出ILI發病時間有晚於AQI的趨勢,所以加設Lag Time考量關聯性,發現大概延遲四周時,AQI其關聯性最為明顯。更進一步再透過R語言將多種空氣污染物帶入複迴歸模型檢定其變數於不同Lag Time對於類流感之顯著性,運算結果發現大多污染源會於四至十周時達到p-value小於0.05,其代表有關聯性。
提 供TANET台灣網際網路研討會-TANET2017
進入演講