Spark Streaming Checkpointing
Spark Streaming Checkpointing 一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等)。为了使这成为…
Spark Streaming部署应用程序
Spark Streaming部署应用程序 Requirements 运行一个Spark Streaming应用程序,有下面一些步骤 有管理器的集群-这是任何Spark应用程序都需…
Spark Streaming性能调优
Spark Streaming性能调优 集群中的Spark Streaming应用程序获得最好的性能需要一些调整。这章将介绍几个参数和配置,提高Spark Streaming应用程…
Spark Streaming减少批数据的执行时间
Spark Streaming减少批数据的执行时间 在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。 数据接收的并行水平 通过网…
Spark Streaming设置正确的批容量
设置正确的批容量 为了Spark Streaming应用程序能够在集群中稳定运行,系统应该能够以足够的速度处理接收的数据(即处理速度应该大于或等于接收数据的速度)。这可以通过流的网…
Spark Streaming内存调优
内存调优 调整内存的使用以及Spark应用程序的垃圾回收行为已经在Spark优化指南中详细介绍。在这一节,我们重点介绍几个强烈推荐的自定义选项,它们可以减少Spark Stream…
Spark SQL
Spark SQL Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaR…
Spark SQL开始
Spark SQL开始 Spark中所有相关功能的入口点是SQLContext类或者它的子类,创建一个SQLContext的所有需要仅仅是一个SparkContext。 val s…
Spark SQL性能调优
Spark SQL性能调优 对于某些工作负载,可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。 在内存中缓存数据 Spark SQL可以通过调用sqlContext.ca…
Spark SQL其他接口
Spark SQL其它接口 Spark SQL也支持直接运行SQL查询的接口,不用写任何代码。 运行Thrift JDBC/ODBC服务器 这里实现的Thrift JDBC/ODB…
Spark SQL数据类型
Spark SQL数据类型 数字类型 ByteType:代表一个字节的整数。范围是-128到127 ShortType:代表两个字节的整数。范围是-32768到32767 Inte…
Spark SQL数据源
数据源 Spark SQL支持通过SchemaRDD接口操作各种数据源。一个SchemaRDD能够作为一个一般的RDD被操作,也可以被注册为一个临时的表。注册一个SchemaRDD…
Spark SQL RDDs
RDDs Spark支持两种方法将存在的RDDs转换为SchemaRDDs。第一种方法使用反射来推断包含特定对象类型的RDD的模式(schema)。在你写spark程序的同时,当你…
Spark SQL parquet文件
Parquet文件 Parquet是一种柱状(columnar)格式,可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能,这些文件可以自动地…
Spark SQL Hive表
Hive表 Spark SQL也支持从Apache Hive中读出和写入数据。然而,Hive有大量的依赖,所以它不包含在Spark集合中。可以通过-Phive和-Phive-thr…
GraphX编程指南
GraphX编程指南 GraphX是一个新的(alpha)Spark API,它用于图和并行图(graph-parallel)的计算。GraphX通过引入Resilient Dis…
Spark GraphX开始
开始 开始的第一步是引入Spark和GraphX到你的项目中,如下面所示 import org.apache.spark._ import org.apache.spark.gra…
Spark GraphX图算法
Spark GraphX图算法 GraphX包括一组图算法来简化分析任务。这些算法包含在org.apache.spark.graphx.lib包中,可以被直接访问。 PageRan…
Spark GraphX提交应用程序
Spark GraphX提交应用程序 在Spark bin目录下的spark-submit可以用来在集群上启动应用程序。它可以通过统一的接口使用Spark支持的所有集群管理器,所有…
独立运行Spark
Spark独立部署模式 安装Spark独立模式集群 安装Spark独立模式,你只需要将Spark的编译版本简单的放到集群的每个节点。你可以获得每个稳定版本的预编译版本,也可以自己编…