标签 RDD 下的文章

RDD是Spark的核心抽象弹性分布式数据集(RDD, resilient distributed datasets),他表示以被分区、只读的、并提供了一组丰富的操作方式来操作这些数据集合。这些数据集的全部或部分可以缓存在内存中,在多次计算见重复使用,省去了大量的磁盘IO操作。RDD提供了一种高度受限的共享内存,即RDD只能基于在稳定物理存储中的数据集...