Spark原理与实现: SparkSQL的概述

2022-02-15

字数统计: 1.6k字 | 阅读时长≈ 5分

什么是Spark SQL

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。

我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生，它是将Spark SQL转换成SparkCore来运行，然后提交到集群执行，执行效率非常快！

Spark SQL其实和hive替代MapReduce一样的.

Spark SQL的特点

1）易整合

1
2
3

集成
SQL查询与Spark程序无缝结合。
Spark SQL允许您使用SQL或familliar DataFrame API在Spark程序中查询结构化数据。适用于Java、Scala、Python和R

2）统一的数据访问方式

1 2	以前我们读hive,读JDBC,读Json都是要创建对象的,现在我们统一有一个对象直接用Spark session这个对象来读这个数据就可以了

统一的数据访问
以同样的方式连接到任何数据源。
DataFrames和SQL提供了一种通用的方法来访问各种数据源，包括Hive、Avro、Parquet、ORC、JSON和JDBC。您甚至可以跨这些源联接数据。

查询和连接不同的数据源。

3）兼容Hive

1
2
3

spark内置hive的数据库是der, 所以我们换成外部的hive,用外部的hive也比较简单,我不需要告诉他计算引擎MR在哪,只需要告诉他元数据信息就可以了,你能让spark通过元数据找到实际数据所在地就行了,元数据在hive当中存在哪呢?在mysql当中,hive不是天生就存在mysql当中的,是有一个配置文件告诉他的,如果说你的spark sql想用之前hive里面的数据很简单,你把配置文件hive-site.xml配置给他移到spark.conf里面就够了,然后你一打开他就完成了之前和你hive数据的对接了

Spark当中有一个内置的hive,你不用外部hive的元数据,spark内部hive自己管理是可以的但是默认的数据库是der.

具有和Hive的兼容性
 运行未修改的Hive查询现有数据
 Spark SQL重用Hive前端和substore，使您与现有的Hive数据、查询和UDF完全兼容。 简单地安装在Hive旁边

Spark SQL可以使用现有的Hive metastore，SerDes和UDFs

4）标准的数据连接

标准的连接
通过JDBC或ODBC连接。服务器模式为商业智能工具提供了行业标准的JDBC和ODBC连接

使用现有的BI工具查询大数据

什么是DataFrame(数据框)

1
2
3

		在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。
DataFrame与RDD的主要区别在于:
		DataFrame带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得Spark SQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。反观RDD，由于无从得知所存数据元素的具体内部结构，Spark Core只能在stage层面进行简单、通用的流水线优化。

1
2

ataFrame也是懒执行的，但性能上比RDD要高，主要原因：高在哪呢?主要就是他有优化器
优化的执行计划，即查询计划通过Spark catalyst optimiser进行优化。比如下面一个例子:

ResultSet():这个方法很恶心,就是编译期不做类型校验,但是你一运行就会报类型转换异常

上图这个例子在做什么事情呢? 
RDD.join(...)filter(....).   对于RDD里面的操作,因为当前的数据集,我是单独的对Event进行过滤的,不是对join出来的,我累加一个和进行过滤的. 如果说你是两个表join. 一个表的某一列加另外一个表的某一列,在这个结果集进行过滤. 那你只能先join再过滤. 但是现在是对表当中的原始数据进行过滤. 其实他在优化的时候做到了一个东西叫谓词下推技术.
谓词下推的基本思想即：
将过滤表达式尽可能移动至靠近数据源的位置，以使真正执行时能直接跳过无关的数据。
就是说在SQL的整个优化过程当中,他将能够提前过滤的数据先自己放在前面去执行. 他自己就能做这个事情.这就叫优化器. 那你SQL写出来之后呢,人家就把你数据先给你过滤出来.先去执行.

什么是DataSet

DataSet是分布式数据集合。DataSet是Spark 1.6中添加的一个新抽象，是DataFrame的一个扩展。它提供了RDD的优势（强类型，使用强大的lambda函数的能力）以及Spark SQL优化执行引擎的优点。而对于SparkSQl的Setframe来说,我们可以说DataFrame是弱类型的.因为他在编译期间不做类型检查.这就给用户带来很不舒服. 而dataSet是可以放一个泛型为具体的样例类.痛过样例类来获取他的一个属性.那这个类型在编译期间是一定能够检查的.
DataFrame虽然有结构信息,但是他在编译器的时候不用,而dataSet他也是有结构信息,但是他在编译期间的时候就给他用上了.这就是DataFrame和dataSet的主要区别. DataFrame只是dataSet的一个特殊形式.
DataSet也可以使用功能性的转换（操作map，flatMap，filter等等）。
1）是DataFrame API的一个扩展，是SparkSQL最新的数据抽象；
2）用户友好的API风格，既具有类型安全检查也具有DataFrame的查询优化特性；
3）用样例类来对DataSet中定义数据的结构信息，样例类中每个属性的名称直接映射到DataSet中的字段名称；
4）DataSet是强类型的。比如可以有DataSet[Car]，DataSet[Person]里面必须放具体的类。

本文作者： xubatian
本文链接： http://xubatian.cn/Spark原理与实现-SparkSQL的概述/
版权声明： 本博客所有文章除特别声明外均为原创，采用 CC BY 4.0 CN协议许可协议。转载请注明出处:https://www.xubatian.cn/