spark基础解析

2022-01-19

字数统计: 6.8k字 | 阅读时长≈ 27分

征途漫漫，惟有奋斗；梦想成真，惟有实干。 ——人民日报

blog: www.xubatian.cn

Spark概述

什么是Spark

1、定义
Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。
2、历史
2009年诞生于加州大学伯克利分校AMPLab, 项目采用Scala编写;
2010年开源;
2013年6月成为Apache孵化项目；
2014年2月成为Apache顶级项目。

xubatian解析:

在Scala当中的map ，reduce这些方法在spark当中同样也有这些方法。

要知道的是Scala的这些方法是面向的是集合当中做处理的，面向的是数据集合，数组等等这些操作。而spark是面对的是海量数据处理的，他面向的数据分析的什么东西呢？叫分布式数据集。Scala处理的数据在一个集合当中，而spark处理的数据可能跨了很多台机器。因为他是用hdfs来存储的。而hdfs存储的时候不是把所有的数据都放在一台机器上的。而是很多台机器上都有。而spark就是同时处理很多台机器上的事情。所以Scala和spark都有map方法，可能功能上都是一样的，都是把里面每一个元素做一个转变。但是他们面向的数据集不一样，spark面向的数据集时RDD。

SparkStream和kafka做对接, 你kafka过来的还是一行一行的数据.虽然封装成了Dstream,但是他还是一行一行的数据. 你要做分析转换输出等

Spark内置模块

blog: www.xubatian.cn

Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义；

Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者Apache Hive版本的SQL方言(HQL)来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等；

Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的 RDD API高度对应；

Spark MLlib：提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能；

集群管理器：Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器(Cluster Manager)上运行，包括Hadoop YARN、Apache Mesos，以及Spark自带的一个调度器，叫作独立调度器。

Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务；阿里利用GraphX构建了大规模的图计算和图挖掘系统，实现了很多生产系统的推荐算法；腾讯Spark集群达到8000台的规模，是当前已知的世界上最大的Spark集群。

Spark特点(DAG)

快
与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。
易用
Spark支持Java、Python和Scala的API, 还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的Shell,可以非常方便地在这些Shell中使用Spark集群来验证解决问题的方法。

通用

Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理(Spark Streaming) 、机器学习 (Spark MLlib)和图计算(GraphX).这些不同类型的处理都可以在同一个应用中无缝使用。减少了开发和维护的人力成本和部署平台的物力成本。

兼容性
Spark可以非常方便地与其他的开源产品进行融合。比如, Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。

博主补充

Spark实现了高效的DAG执行引擎。DAG是有向无环图即多个任务之间通过内存来做交互。

blog: www.xubatian.cn

多个任务之间直接通过内存来做交互。它可以直接将他们串联起来。而我们之前可能需要用到MR1，MR2，MR3进行落盘操作。

另一个spark快的原因是：
对于MR来说，你整个Map任务和Reduce任务是计算的核心。而map任务和reduce任务你用jps能看到进程吗？不能。也看不到spark当中的maptask和reducetask。这也是spark比mr快的一个比较核心的一个点。一个呢，对于hadoop来说他是使用进程来调度的。我启动一个单独的task都是一个单独的进程。你能jps看到的是进程号。而在spark当中启动一个任务他是线程。你说是调用进程快呢还是线程快呢？我线程我可以事先启动好一个线程池。我要的时候去取一下就完了。嘿嘿~~阴险。这也是spark比mr快的一个很重要的一个点。

blog: www.xubatian.cn

Spark运行模式

重点local模式,和yarn模式,为什么不掌握spark自己的呢?
第一重点:
本地模式主要是用于教学和测试.公司当中的一些demo级别的测试也是用本地模式.因为他相对来说,资源消耗等等都比较简单一点.local模式相对来说简单一点.不需要启动很多进程去占用额外的资源
第二重点:
Yarn模式,这个是应用于公司的生产环境.为什么公司的生产环境会用到yarn模式呢?稍微结合standlone模式思考一下.standlone是spark他自己来管理这一套资源.而公司当中其实并不愿意采用standlone模式,而是采用yarn模式比较多.为什么公司当中不用呢?既然spark自己有一套独立的调度资源系统,那你说他和standlone模式兼容性更好还是yarn模式兼容性更好呢?肯定是standlone。因为这是他自己的。那为什么兼容性更好却不用呢？说明他两又有区别，而且区别在公司当中standlone模式比yarn模式更严重一点。我们的mapreduce是yarn分配资源的，我们学过的tez也是yarn分配资源的。Storm也是yarn分配资源的。如果说我们spark也用yarn分配调度资源有什么好处呢？是不是统一的资源调度呢呀！
如果说我们spark当中使用独立的一套呢？会产生资源争抢。因为yarn认为这块资源是我独有的，而spark的standlone也认为这块资源是我独有的，那我分配的时候有可能两个任务就冲突了。但是我交给某一个人统一的安排这个资源，不行就等待，就不会产生资源争抢的问题。这个就是公司当中用yarn模式做的一个点。
Yarn模式在生产环境中用的比较多。主要体现在中小型公司。他整个集群资源规模不大，他整个MR任务，spark任务，或者其他任务都是运行在同一套资源上的。如果告诉你你公司比较有钱，你的spark集群是独立的spark集群。那么我们就用spark的standlone模式。
但是绝大多数公司他的整个集群都是资源混布的。这就比较依赖与统一的资源管理了。这样就不至于产生资源争抢。
我们所讲的几种模式都是在Liunx环境当中开一个shell窗口。类似于之前写的hive，在里面写sql操作。但是实际生产当中，他更多的对于spark来说还是要写代码，打jar包来运行。所以最后是我们写的一个wordcount程序，打jar包来提交到集群上去运行。

Spark安装地址

1．官网地址
http://spark.apache.org
2．文档查看地址
https://spark.apache.org/docs
3．下载地址
https://spark.apache.org/downloads.html

集群角色

注意: 不是standlone模式就没有Master和Worker

Master和Worker

Master和Worker: 负责资源的,具体运行,哪个的代码他不管.用户客户端提交代码后,你告诉我分配3G内存,2核CPU我给你分配就完了. Master和Worker: 是standlone模式所独有的. yarn模式没有. Applicationmaster提交任务前,master和work一定是启动状态.

1）Master

1
2
3

Spark特有资源调度系统的Leader。掌管着整个集群的资源信息，类似于Yarn框架中的ResourceManager，主要功能：
（1）监听Worker，看Worker是否正常工作；
（2）Master对Worker、Application等的管理(接收Worker的注册并管理所有的Worker，接收Client提交的application，调度等待的Application并向Worker提交)。

2）Worker

Spark特有资源调度系统的Slave(奴隶,随从)，有多个。每个Slave掌管着所在节点的资源信息，类似于Yarn框架中的NodeManager，主要功能：
（1）通过RegisterWorker注册到Master；
（2）定时发送心跳给Master；
（3）根据Master发送的Application配置进程环境，并启动ExecutorBackend(执行Task所需的临时进程)

Driver和Executor

Driver和Executor: 负责具体执行的任务.他和具体提执行的任务相关.驱动器和执行器.驱动器是主,执行器是从.M任务的resourcemanager和nodemanager是负责管理资源, 资源申请下来之后他先启动的是Applicationmaster,是当前这个任务的小组长. Driver类似于MR的Applicationmaster . Applicationmaster来了之后,他去执行执行相应的具体的任务.就是mapTask,ReduceTask等.这些task就executer中去运行. Driver和Executer是线程级别的任务.

1）Driver（驱动器）

Spark的驱动器是执行开发程序中的main方法的线程。它负责开发人员编写的用来创建SparkContext (sc)、创建RDD，以及进行RDD的转化操作和行动操作代码的执行。如果你是用Spark Shell，那么当你启动Spark shell的时候，系统后台自启了一个Spark驱动器程序，就是在Spark shell中预加载的一个叫作 sc的SparkContext对象。如果驱动器程序终止，那么Spark应用也就结束了。
Driver(驱动器)主要负责：
（1）将用户程序代码转化为作业（Job）；
（2）在Executor之间调度任务（Task）；
（3）跟踪Executor的执行情况；
（4）通过UI展示查询运行情况。

2）Executor（执行器）

Spark Executor是一个工作节点，负责在 Spark 作业(Job)中运行任务(Task)，任务间相互独立。Spark 应用启动时，Executor节点被同时启动，并且始终伴随着整个 Spark 应用的生命周期而存在。如果有Executor节点发生了故障或崩溃，Spark 应用也可以继续执行，会将出错节点上的任务调度到其他Executor节点上继续运行。
Executor（执行器）主要负责：
（1）负责运行组成 Spark 应用的任务，并将状态信息返回给驱动器(Driver)程序；
（2）通过自身的块管理器（Block Manager）为用户程序中要求缓存的RDD提供内存式存储。RDD是直接缓存在Executor内的，因此任务可以在运行时充分利用缓存数据加速运算。

总结

Master和Worker是Spark的守护进程(什么叫守护进程?即一直都在的)，即Spark在特定模式下正常运行所必须的进程。

Driver和Executor是临时程序，当有具体任务提交到Spark集群才会开启的程序。其实Driver和Executor是线程. 而Master和Worker是进程.

博主补充

Driver(驱动器) 和 Executer(执行器) 有主从关系, Driver是主,Executer是从.
Driver可以这样理解,MR中资源准备好了之后,要启一个ApplicationMaster,即当前这个任务的守护者,相当于Driver(驱动器). ApplicationMaster启动好了之后,启动相应的任务, 如mapTask,ReduceTask等. 具体的一个个Task去运行,这就相当于Executer里面运行的内容

blog: www.xubatian.cn

1.只要你用的是StandLone模式,master和worker将一直都有.如果你是yarn模式就不需要.

对于Driver和Executer只有等任务来了才有. 而Driver和Executer,无论本地模式和yarn模式都有, 他和模式没有关系

以下是Spark的几个模式, 它运行的位置可能不一样. standlone的Drive和Executor是由master和Worker来决定位置的.
如果是yarn模式就有ResourceManager来决定位置.

Local模式

本地模式：解压完了就等于安装好了。就和Hadoop一样，解压完了，什么都没改，直接就可以运行jar包了。这个也一样的，直接可以运行jar包

概述

Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。它可以通过以下集中方式设置Master。

local: 所有计算都运行在一个Core当中，没有任何并行计算，通常我们在本机执行些测试代码, 或者练手, 就用这种模式;

local[K]: 指定使用K个Core来运行计算，比如local[4]就是运行4个Core来执行;

local[*]: 这种模式直接使用最大Core数。

master叫资源管理器. 我们统称为master.
我们将standlone里面的master, yarn里面的ResourceManager. 以及这里上图的资源管理器都成为master.

安装使用

1）上传并解压spark安装包

1 2	[shangbaishuyao@hadoop102 sorfware]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/ [shangbaishuyao@hadoop102 module]$ mv spark-2.1.1-bin-hadoop2.7 spark

2）官方求PI案例(类似java jar)

[shangbaishuyao@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

（1）基本语法

bin/spark-submit \
--class <main-class>
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \        -- jar 包所在路径
[application-arguments]    --大括号表示可选的,有些main方法不需要参数

===============上面是模板,下面是实例,对比====================

 bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

（2）参数说明

--master 指定Master的地址；
--class: 你的应用的启动类 (如 org.apache.spark.examples.SparkPi)；
--deploy-mode: 是否发布你的驱动到worker节点(cluster) 或者作为一个本地客户端 (client) (default: client)；
--conf: 任意的Spark配置属性， 格式key=value. 如果值包含空格，可以加引号“key=value” ；
application-jar: 打包好的应用jar,包含依赖. 这个URL在集群中全局可见。 比如hdfs:// 共享存储系统， 如果是 file:// path， 那么所有的节点的path都包含同样的jar
application-arguments: 传给main()方法的参数；
--executor-memory 1G 指定每个executor可用内存为1G；
--total-executor-cores 2 指定每个executor使用的cup核数为2个。

3）结果

该算法是利用蒙特·卡罗算法求PI

blog: www.xubatian.cn

4）准备文件

[shangbaishuyao@hadoop102 spark]$ mkdir input
在input下创建3个文件1.txt和2.txt，并输入以下内容
hello shangbaishuyao
hello spark

5）启动spark-shell

[shangbaishuyao@hadoop102 spark]$ bin/spark-shell
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
18/09/29 08:50:52 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/09/29 08:50:58 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
Spark context Web UI available at http://192.168.9.102:4040
Spark context available as 'sc' (master = local[*], app id = local-1538182253312).
Spark session available as 'spark'.
Welcome to

      / __/__  ___ _____/ /__
     _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.1.1
       /_/
          
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_144)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

6）结果图示

blog: www.xubatian.cn

7）运行WordCount程序

scala>sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res0: Array[(String, Int)] = Array((hadoop,6), (oozie,3), (spark,3), (hive,3), (shangbaishuyao,3), (hbase,6))
scala>

可登录hadoop102:4040查看程序运行

blog: www.xubatian.cn

提交流程

1）提交任务分析

blog: www.xubatian.cn

博主补充解析

因为是Local模式,没有master和worker. 我们在提交任务之前,没有启动任何程序. 所以资源管理者就是本身,就是spark-submit,即他自己管理计算,自己管理资源. 正常提交,提交之后就会运行一个Driver. 其实你在起动spark-shell的时候就已经有了这个Driver了. Driver去资源管理者里注册应用程序,然后启动Executor. 至此,这一套就在起动saprk-shell的时候就已经搞好了. 接下来过程就是我们自己写代码了. 就是Executor反向注册到Driver中产生通信. 然后写代码, 如初始化sparkContext, 任务划分,任务调度等. 调度完后给Executor中去运行.

数据流程

blog: www.xubatian.cn

textFile("input")：  读取本地文件input文件夹数据；
flatMap(_.spl it(" "))：压平操作，按照空格分割符将一行数据映射成一个个单词；
map((_,1))：对每一个元素操作，将单词映射为元组；
reduceByKey(_+_)：按照key将值进行聚合，相加；
collect：将数据收集到Driver端展示。

案例分析

blog: www.xubatian.cn

Standalone模式

Standalone模式有一组进程叫master和worker

单机模式，这里指的是spark自己来管理整个的计算资源，交给spark来管理了，他也是一个分布式的。但是这个计算资源不跟其他的mapreduce呀或者storm等程序所共用的，他自己来管理的。意思就是说，spark他自己玩自己的。他有一套独立的资源管理系统在里面此模式中有一组进程叫master和worker

概述

blog: www.xubatian.cn

构建一个由Master+Slave构成的Spark集群，使Spark程序运行在集群中，且有Cluster与Client模式(默认是这种)两种。主要区别在于：Driver程序的运行节点不一样。
Driver是一个线程,是执行我写的程序的main方法,就是执行的spark-submit --class里面的main方法.

Client模式指什么意思呢? 我们需要执行Spark-submit来提交一个任务. 如果我们采用的是client模式. 那么我们的Driver程序就在当前提交的机器的线程. 这个spark-submit是不是一个进程,这个进程的名字叫spark-submit. 这个线程就运行在进程spark-submit里面. 这是client模式.
而Cluster模式,他这个Driver运行在哪? 他是由master来决定的一个位置. 所以cluster模式和Client模式他们两个区别就在这. 
如果生产环境中要用的话, 用的最多的是Cluster模式. 因为 Driver在整个运行过程中,他会和其他节点Executor做通信. 这样就对内存用的比较大了. 这样的话,我们让集群自己去做选择是更好一些. 因为client模式, 你在哪提交的,你的Driver就运行在哪. 很有可能,你提交的地方的这台机器本身资源不足等问题,所以用cluster模式更好一些



7077 standlone模式下master的服务端口
8080 standlone模式下master的web端口
4040 Driver的web端口
18080 历史服务端口
8088 ResourceManager的web端口
19888 是MapReduce里面yarn的历史服务端口

blog: www.xubatian.cn

安装使用

1）进入spark安装目录下的conf文件夹

1	[shangbaishuyao@hadoop102 module]$ cd spark/conf/

2）修改配置文件名称

1 2	[shangbaishuyao@hadoop102 conf]$ mv slaves.template slaves [shangbaishuyao@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh

3）修改slave文件，添加work节点

[shangbaishuyao@hadoop102 conf]$ vim slaves

hadoop102
hadoop103
hadoop104

4）修改spark-env.sh文件，添加如下配置

[shangbaishuyao@hadoop102 conf]$ vim spark-env.sh

SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

5）分发spark包

1	[shangbaishuyao@hadoop102 module]$ xsync spark/

6）启动

[shangbaishuyao@hadoop102 spark]$ sbin/start-all.sh
[shangbaishuyao@hadoop102 spark]$ util.sh 
================shangbaishuyao@hadoop102================
3330 Jps
3238 Worker
3163 Master
================shangbaishuyao@hadoop103================
2966 Jps
2908 Worker
================shangbaishuyao@hadoop104================
2978 Worker
3036 Jps

网页查看：hadoop102:8080
注意：如果遇到 “JAVA_HOME not set” 异常，可以在sbin目录下的spark-config.sh 文件中加入如下配置：

1	export JAVA_HOME=/opt/module/jdk1.8.0_144

7）官方求PI案例

[shangbaishuyao@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

blog: www.xubatian.cn

8）启动spark shell

/opt/module/spark/bin/spark-shell \
--master spark://hadoop102:7077 \                     
--executor-memory 1g \
--total-executor-cores 2
参数：--master spark://hadoop102:7077指定要连接的集群的master
执行WordCount程序
scala>sc.textFile("/opt/module/spark/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect


res0: Array[(String, Int)] = Array((hadoop,6), (oozie,3), (spark,3), (hive,3), (shangbaishuyao,3), (hbase,6))

scala>

JobHistoryServer配置 (查看历史用的,历史服务器)

1）修改spark-default.conf.template名称

1	[shangbaishuyao@hadoop102 conf]$ mv spark-defaults.conf.template spark-defaults.conf

2）修改spark-default.conf文件，开启Log (配置的是写)

1
2
3

[shangbaishuyao@hadoop102 conf]$ vi spark-defaults.conf
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop102:9000/directory

注意：HDFS上的目录需要提前存在。
3）修改spark-env.sh文件，添加如下配置 (配置的是读取)

[shangbaishuyao@hadoop102 conf]$ vi spark-env.sh

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080
-Dspark.history.retainedApplications=30 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:9000/directory"

参数描述：
spark.eventLog.dir：Application在运行过程中所有的信息均记录在该属性指定的路径下
spark.history.ui.port=18080 WEBUI访问的端口号为18080
spark.history.fs.logDirectory=hdfs://hadoop102:9000/directory配置了该属性后，在start-history-server.sh时就无需再显式的指定路径，Spark History Server页面只展示该指定路径下的信息
spark.history.retainedApplications=30指定保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除。注意：这个是内存中的应用数，而不是页面上显示的应用数。
4）分发配置文件

1 2	[shangbaishuyao@hadoop102 conf]$ xsync spark-defaults.conf [shangbaishuyao@hadoop102 conf]$ xsync spark-env.sh

5）启动历史服务

1	[shangbaishuyao@hadoop102 spark]$ sbin/start-history-server.sh

6）再次执行任务

[shangbaishuyao@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

7）查看历史服务

1	hadoop102:18080

HA配置

我们worker有三个宕机一个还能用,但是master只有一个,我发高可用,所以我们要将master依赖zookeeper,由zookeeper来选举master,不能让我们直接指定

blog: www.xubatian.cn

1）zookeeper正常安装并启动
2）修改spark-env.sh文件，添加如下配置

[shangbaishuyao@hadoop102 conf]$ vi spark-env.sh
注释掉如下内容：因为我们的master由zookeeper来选举,不能由我们自己指定了,故注释掉
#SPARK_MASTER_HOST=hadoop102
#SPARK_MASTER_PORT=7077
添加上如下内容：
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER 
-Dspark.deploy.zookeeper.url=hadoop102,hadoop103,hadoop104 
-Dspark.deploy.zookeeper.dir=/spark"

3）分发配置文件

1	[shangbaishuyao@hadoop102 conf]$ xsync spark-env.sh

4）在hadoop102上启动全部节点

1	[shangbaishuyao@hadoop102 spark]$ sbin/start-all.sh

5）在hadoop103上单独启动master节点

1	[shangbaishuyao@hadoop103 spark]$ sbin/start-master.sh

6）spark HA集群访问,一般先连接前面的master,前面挂掉了再连接后面的

/opt/module/spark/bin/spark-shell \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2g \
--total-executor-cores 2

Yarn模式

他不需要部署spark集群,我只需要部署yarn集群,因为我所解压的spark只是作为本地客户端,只是提交用,当然你也可以分发, 分发后的目的也就是hadoop102,hadoop103,hadoop104都是可以提交任务而已. 因为yarn模式,我们解压的spark仅仅作为客户端来用的
生产环境当中用的最多的一种模式，就是说spark他有一个计算任务。任务呢，我来执行，但是运行任务的CPU,还有内存这些东西交给yarn来管理。交给yarn来管理其实就是交给resourcemanager和nodemanager来管理。

概述

Spark客户端直接连接Yarn，不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点。
yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看到app的输出
yarn-cluster：Driver程序运行在由RM（ResourceManager）启动的AM（APPMaster）适用于生产环境。

Yarn-cluster提交流程图:
https://www.cnblogs.com/shi-qi/articles/12174206.html

blog: www.xubatian.cn

博主解析

blog: www.xubatian.cn

安装使用

1）修改hadoop配置文件yarn-site.xml,添加如下内容
[shangbaishuyao@hadoop102 hadoop]$ vi yarn-site.xml

<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
   <name>yarn.nodemanager.pmem-check-enabled</name>
   <value>false</value>
</property>

<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
   <name>yarn.nodemanager.vmem-check-enabled</name>
   <value>false</value>
</property>

2）修改spark-env.sh，添加如下配置

1
2
3

[shangbaishuyao@hadoop102 conf]$ vi spark-env.sh

YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

3）分发配置文件,只是分发这个配置文件,我spark-yarn要分发吗?不需要.因为我们不需要额外去构建spark集群,yarn是分布式的,而本地的spark-yarn仅仅是做提交任务的客户端,所以
Spark-yarn不许要分发

1	[shangbaishuyao@hadoop102 conf]$ xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml

4）执行一个程序

[shangbaishuyao@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

注意：在提交任务之前需启动HDFS以及YARN集群。

Yarn 模式读取的文件是HDFS里面的

blog: www.xubatian.cn

日志查看

1）修改配置文件spark-defaults.conf，添加如下内容

1 2	spark.yarn.historyServer.address=hadoop102:18080 spark.history.ui.port=18080

2）重启Spark历史服务

[shangbaishuyao@hadoop102 spark]$ sbin/stop-history-server.sh 
stopping org.apache.spark.deploy.history.HistoryServer
[shangbaishuyao@hadoop102 spark]$ sbin/start-history-server.sh 
starting org.apache.spark.deploy.history.HistoryServer, logging to /opt/module/spark/logs/spark-shangbaishuyao-org.apache.spark.deploy.history.HistoryServer-1-hadoop102.out

3）提交任务到Yarn执行

[shangbaishuyao@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

4）Web页面查看日志

blog: www.xubatian.cn