虛擬講堂進入演講
講 題運用Spark於用電大數據湖泊之資料儲存與分析平台實 作
講 者東海大學資訊工程學系 楊朝棟
日 期2018/10/26長 度00:11:18人 氣127 次
摘 要
本文提出一個架構能將現有的儲存系統導入
至資料湖泊與大數據平台並儲 存與分析電能資料,
透過 Sqoop 將舊系統的歷史資料轉存到 Hive 上做
資料倉儲,即時的串流資料藉由 Kafka 保持資料的
完整性且利用 Spark Streaming的方式將即時產生的
電能資料寫入 HBase 做為即時資料的保存,以 Hive
和 HBase 為基底建置資料湖泊以保持資料的完整性,
並整合 Impala 與 Phoenix 個別對 Hive 和 HBase 做
為搜尋引擎。本文也利用 Spark 提出用電預測與斷
電判別等分析模組來分析校園用電情形,分析的結
果將會儲存在 HBase 上,本文所有視覺化的呈現都
藉由 Apache Superset 完成。
提 供TANET台灣網際網路研討會-TANET2018
進入演講