Spark 编程介绍
Spark 编程指南简体中文版 本书出处:http://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/ 从这…
Spark 快速入门
设置Spark 在本机设置和运行Spark非常简单。你只需要下载一个预构建的包,只要你安装了Java 6+和Python 2.6+,就可以在Windows、Mac OS X和Lin…
引入 Spark
引入 Spark Spark 1.2.0 使用 Scala 2.10 写应用程序,你需要使用一个兼容的 Scala 版本(例如:2.10.X)。 写 Spark 应用程序时,你需要…
初始化 Spark
初始化 Spark Spark 编程的第一步是需要创建一个 SparkContext 对象,用来告诉 Spark 如何访问集群。在创建 SparkContext 之前,你需要构建一…
Spark 共享变量
共享变量 一般情况下,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量被复制到…
Spark 快速上手
Spark 快速上手 本节课程提供一个使用 Spark 的快速介绍,首先我们使用 Spark 的交互式 shell(用 Python 或 Scala) 介绍它的 API。…
Spark Shell
使用 Spark Shell 基础 Spark 的 shell 作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习 API。它可以使用 Scala(在 Java 虚拟机上…
Spark 运行程序
Spark 运行程序 祝贺你成功运行你的第一个 Spark 应用程序! 要深入了解 API,可以从Spark编程指南开始,或者从其他的组件开始,例如:Spark Streaming…
Spark RDDs
弹性分布式数据集 (RDDs) Spark 核心的概念是 Resilient Distributed Dataset (RDD):一个可并行操作的有容错机制的数据集合。有 2 种方…
Spark 并行集合
Spark 并行集合 并行集合 (Parallelized collections) 的创建是通过在一个已有的集合(Scala Seq)上调用 SparkContext …
Spark RDD 操作
Spark RDD 操作 RDDs 支持 2 种类型的操作:转换(transformations) 从已经存在的数据集中创建一个新的数据集;动作(actions) 在数据…
Spark RDD持久化
Spark RDD 持久化 Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节…
Spark Streaming
Spark Streaming Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、…
Spark Streaming示例
一个快速的Spark Streaming例子 在我们进入如何编写Spark Streaming程序的细节之前,让我们快速地浏览一个简单的例子。在这个例子中,程序从监听TCP套接字的…
Spark Streaming关联
Spark Streaming关联 与Spark类似,Spark Streaming也可以利用maven仓库。编写你自己的Spark Streaming程序,你需要引入下面的依赖到…
初始化StreamingContext
初始化StreamingContext 为了初始化Spark Streaming程序,一个StreamingContext对象必需被创建,它是Spark Streaming所有流操…
Spark Streaming离散流
离散流(DStreams) 离散流或者DStreams是Spark Streaming提供的基本的抽象,它代表一个连续的数据流。它要么是从源中获取的输入流,要么是输入流通过转换算子…
输入DStreams
输入DStreams和receivers 输入DStreams表示从数据源获取输入数据流的DStreams。在快速例子中,lines表示输入DStream,它代表从netcat服务…
DStream的输出操作
DStreams上的输出操作 输出操作允许DStream的操作推到如数据库、文件系统等外部系统中。因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStrea…
DStreams缓存或持久化
缓存或持久化 和RDD相似,DStreams也允许开发者持久化流数据到内存中。在DStream上使用persist()方法可以自动地持久化DStream中的RDD到内存中。如果DS…