杂类

时间: | 分类: spark学习

上传到HDFS

首先cd到文件夹,然后用命令

hadoop fs -copyFromLocal fileName HDFSdirectory

从HDFS下载

hadoop fs -get HDFSdirectory

删除文件

hadoop fs -rm 

创建RDD的三种方式

  • 从存储在存储系统中的数据上来创建

    val inputRdd:RDD[(LongWritable,Text)]=sc.newAPIHadoopFile(“hdfs://master:9999/word.txt",classOf[TextInputFormat],classOf[LongWriable],classOf[Text])
  • 基于一个已经存在的RDD来创建一个RDD

    val words:RDD[String]=inputRdd.flatMap(_._2.toString.split(""))

从已经存在的inputRdd上创建一个新的RDD

  • 基于一个已经在spark内存中的列表数据来创建一个RDD

    val words:RDD[Int]=sc.p arallelize[Int](Seq(1,2,3,4,5))

Shuffle过程spark基于内存?而MapReduce基于磁盘?

MapReduce基于磁盘。

Shuffle不是绝对基于内存,内存空间足够就在内存中。

spark可以将任何类型的中间结果数据显示的调用api存储在分布式式内存中

Pregel和HaLoop等 将一些特定的中间结果数据隐式地存储在分布式内存中

MapReduce以及Dryad等 将中间结果写到分布式文件系统中,需要磁盘I/O




失学失业还秃头


文章归档