CodeMan

Each of us must find a way to love the world. You have found yours.

0%

Spark Notes

Spark是什么

Spark是通用的大数据计算框架. 如Hadoop的MapReduce、Hive引擎、Storm的流式计算引擎一样。

Spark各子项目

Spark Core:离线计算
Spark SQL: 交互式查询
Spark Streaming: 实时流式计算
Spark MLlib: 机器学习
Spark GraphX: 图计算

与Hadoop主要区别

Spark: 主要用于计算
Hadoop:主要用于大数据存储(HDFS、Hive、HBase)以及资源调度(Yarn)

Hadoop: 最耗时的部分是Shffer
Spark: 基于内存的计算