| 在過去數年間,網際網路及行動應用服務出
現爆發性的成長,使用者在執行各種應用程式或
社群網站服務時,必須透過資料庫來儲存及管理
相關的資料。在這資訊爆炸的時代,如何選取一
個好的資料庫是一件值得關注的事。大型的社群
平台在利用傳統關聯式資料庫處理這些與時俱增
的資料時,必然會遇到的問題,便是在系統處理
使用者的工作請求時,它會需要花費更多的資料
處理時間。Google、Facebook、Amazon 等公司從
2009 年提出 NoSQL 的概念,NoSQL 支援 SQL 的
語法,但不遵循傳統關聯式資料庫的嚴格框架,
擴展性也比關聯式資料庫更具有優勢,因此,
NoSQL 資料庫的開發與應用也愈加受到重視。
本論文將使用 Datastax 公司提供的 SparkCassandra-Connector
連接運算框架[1],將 Spark 與
NoSQL 資料庫 Cassandra 進行連結,並使用 Intel
公司提供的大資料分析基準(Benchmark)-HiBench
[2]去分析當結合 Spark-Cassandra 的效能評估,提
供使用者在 Spark-Cassandra 結合在不同工作量
(Workload)的效能評估,進一步提供一個優化的演
算法提升 Spark-Cassandra 開發環境的效能。 |