RDD介绍

RDD是Spark的核心抽象 弹性分布式数据集(RDD, resilient distributed datasets),他表示以被分区、只读的、并提供了一组丰富的操作方式来操作这些数据集合。这些数据集的全部或部分可以缓存在内存中,在多次计算见重复使用,省去了大量的磁盘IO操作。

Continue Reading →

scala简介

菜鸟教程Scala学习笔记 基本语法: 区分大小写 类名 class 第一个字母要大写 class MyFirstScalaClass 方法名 def 第一个字母用小写 def myMethodName() 程序文件名应与对象名称完全匹配 def main(args: Array[String]) – Scala程序从main()方法开始处理,这是每一个Scala程序的强制程序入口部分

Continue Reading →

去除数据中的伪MAC地址

1. 什么是MAC地址: MAC地址(英语:Media Access Control Address),直译为媒体访问控制地址,也称为局域网地址(LAN Address),以太网地址(Ethernet Address)或物理地址(Physical Address),它是一个用来确认网络设备位置的地址。在OSI模型中,第三层网络层负责IP地址,第二层数据链接层则负责MAC地址。MAC地址用于在网络中唯一标示一个网卡,一台设备若有一或多个网卡,则每个网卡都需要并会有一个唯一的MAC地址。 来源:维基百科

Continue Reading →