Spark SQL
Spark SQL
Spark SQL Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaR…
Spark SQL开始
Spark SQL开始 Spark中所有相关功能的入口点是SQLContext类或者它的子类,创建一个SQLContext的所有需要仅仅是一个SparkContext。 val s…
Spark SQL性能调优
Spark SQL性能调优 对于某些工作负载,可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。 在内存中缓存数据 Spark SQL可以通过调用sqlContext.ca…
Spark SQL其他接口
Spark SQL其它接口 Spark SQL也支持直接运行SQL查询的接口,不用写任何代码。 运行Thrift JDBC/ODBC服务器 这里实现的Thrift JDBC/ODB…
Spark SQL数据类型
Spark SQL数据类型 数字类型 ByteType:代表一个字节的整数。范围是-128到127 ShortType:代表两个字节的整数。范围是-32768到32767 Inte…
Spark SQL数据源
数据源 Spark SQL支持通过SchemaRDD接口操作各种数据源。一个SchemaRDD能够作为一个一般的RDD被操作,也可以被注册为一个临时的表。注册一个SchemaRDD…
Spark SQL RDDs
RDDs Spark支持两种方法将存在的RDDs转换为SchemaRDDs。第一种方法使用反射来推断包含特定对象类型的RDD的模式(schema)。在你写spark程序的同时,当你…
Spark SQL parquet文件
Parquet文件 Parquet是一种柱状(columnar)格式,可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能,这些文件可以自动地…
Spark SQL Hive表
Hive表 Spark SQL也支持从Apache Hive中读出和写入数据。然而,Hive有大量的依赖,所以它不包含在Spark集合中。可以通过-Phive和-Phive-thr…