| Session G4:雲端技術、應用與服務
論文作者:廖知航、葉介山、張勝凱
在這個資訊發達的時代,每天有非常多的資料產生,需要把他們整理成有用的資訊,Hadoop 在處 理大量資料上有非常好的能力,而R 語言則是優秀的開放式統計語言,R 可以處理Hadoop 無法處理的多key value 值資料,而將兩者結合在一起成為 RHadoop 並發揮彼此的所長,是本研究主要探討的主題。
本研究以Hadoop 與R 語言結合進行資料探勘,目的是利用Hadoop 的平行分散式處理技術與R 語言的統計軟體演算,來實驗大數據的儲存、處 理、及檢索之功能。本研究使用靜宜大學提供的網路學習平台weblog 數據,共5 天2,812,555 筆,透過RHadoop 分析資料,並使用一台虛擬機以及三台虛擬機測試效能,理解RHadoop 背後運作的原理,在三台虛擬機分工運作下會優於一台虛擬機,佐證實驗。 |