分类 spark学习 下的文章

一瞥

时间:

《Apache Spark源码剖析》笔记spark简介在Hadoop的整个生态系统中,Spark 和 MapReduce 在同一个层级,主要解决分布式计算框架的问题。分布式并行处理,集群管理高可靠性的两重含义,一是服务的有效性,二是计算结果的准确性。高性能计算在可接受的时间内完成Spark 和 Hadoop的关联:Spark 和 Hadoop中的MapReduce处在同一层面Spark可以部...


RDD介绍

时间:

RDD是Spark的核心抽象弹性分布式数据集(RDD, resilient distributed datasets),他表示以被分区、只读的、并提供了一组丰富的操作方式来操作这些数据集合。这些数据集的全部或部分可以缓存在内存中,在多次计算见重复使用,省去了大量的磁盘IO操作。RDD提供了一种高度受限的共享内存,即RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上的执行批量操作(ma...


杂类

时间:

上传到HDFS首先cd到文件夹,然后用命令hadoop fs -copyFromLocal fileName HDFSdirectory从HDFS下载hadoop fs -get HDFSdirectory删除文件hadoop fs -rm 创建RDD的三种方式从存储在存储系统中的数据上来创建val inputRdd:RDD[(LongWritable,Text)]=sc.newAPIHad...


spark性能调优

时间:

spark 性能调优避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD进行持久化每次对一个RDD执行一个算子操作时,都会从源头处计算一遍计算出RDD再对这个RDD执行算子操作


拆分字段

时间:

import org.apache.spark.sql.SparkSession object T { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .appName(name="read File") .config...




失学失业还秃头


文章归档