RDD介绍

RDD是Spark的核心抽象 弹性分布式数据集(RDD, resilient distributed datasets),他表示以被分区、只读的、并提供了一组丰富的操作方式来操作这些数据集合。这些数据集的全部或部分可以缓存在内存中,在多次计算见重复使用,省去了大量的磁盘IO操作。

Continue Reading →