| 講 題 | 即時空氣品質及類流感資料儲存與處理平台之研製 | | 講 者 | 東海大學資訊工程學系,東海大學計算機中心,臺中榮民總醫院,靜宜大學資訊管理學系-王元廷 | | 日 期 | 2017/10/27 | 長 度 | 00:10:53 | 人 氣 | 140 次 | | | 在2015年底,台中市境內11處監測站,發生同時有9處監測站超標。此外,類流感疾病統計人數也逐漸增加。為了瞭解空氣品質與類流感之關聯性,本研究建立整合空氣品質與類流感資料的大數據平台。實作方面,第一,建立一個叢集儲存(HDFS)與Spark環境作運算,使用ELK Stack作為視覺化平台與Ceph Object Storage作為資料備份。第二,串接Open Data API自動導入空氣品質與類流感資料至MySQL。研究中遇到些問題。首先,關聯式資料庫造成I/O效能不好。因此,本研究使用索引方式達到兩倍的讀寫效能。在Sqoop工具環境,一般應用只能將原始資料切割成為多分檔案。但是,切成多分檔案也增加傳輸時間。因此,本研究使用「with direction」方法與切成多份檔案的組合可以達到同樣的效能。最後本研究使用Spark,並使用Alluxio加速存取資料。資料儲存在HDFS,自動傳輸到Alluxio記憶體中。讓Spark在記憶體讀取更加快速。最終由ELK Stack將空氣品質資料及類流感資料匯入,並透過此平台視覺化分析,我們觀察出ILI發病時間有晚於AQI的趨勢,所以加設Lag Time考量關聯性,發現大概延遲四周時,AQI其關聯性最為明顯。更進一步再透過R語言將多種空氣污染物帶入複迴歸模型檢定其變數於不同Lag Time對於類流感之顯著性,運算結果發現大多污染源會於四至十周時達到p-value小於0.05,其代表有關聯性。 | | 提 供 | TANET台灣網際網路研討會-TANET2017 | | |
|