雄风静谧

Spark07-Spark优化

2021-05-22 Spark

Spark06-Spark内核

Spark内核概述Spark内核泛指 Spark的核心运行机制，包括 Spark核心组件的运行机制、 Spark任务调度机制、 Spark内存管理机制、 Spark核心功能的运行原理等，熟练掌握 Spark内核原理，能够帮助我们更好地完成 Spark代码设计，并能够帮助我们准确锁定项目运行过程中出现 ...

2021-05-22 Spark

Spark05-SparkStreaming

SparkStreaming概述Spark Streaming用于流式数据的处理。 Spark Streaming支持的数据输入源很多，例如： Kafka、Flume、 Twitter、 ZeroMQ和简单的 TCP套接字等等。数据输入后可以用 Spark的高度抽象原语如： map、 reduce、 ...

2021-05-22 Spark

Spark02-RDD

三大数据结构Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是： RDD : 弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量 RDD 介绍RDD（Resilient Distributed Datas ...

2021-05-21 Spark

Spark01-概述

Spark与HadoopSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark出现的时间相对较晚，并且主要功能主要是用于数据计算，所以其实Spark一直被认为是Hadoop 框架的升级版。 Hadoop特点： Hadoop是由java语言编写的，在分布式服务器集群上存储海量数 ...

2021-05-21 Spark

Spark03-累加器&广播变量

累加器累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量，在Executor端的每个Task都会得到这个变量的一份新的副本，每个task更新这些副本的值后，传回Driver端进行merge。系统累加器val rdd = sc.makeRDD(List(1,2 ...

2021-05-21 Spark

Spark04-SparkSql

SparkSql 概述Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Hive and SparkSQLSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。 Hive是早期唯一运行在Had ...

2021-05-21 Spark

Spark00-安装

Spark作为一个数据处理框架和计算引擎，被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn，不过逐渐容器式环境也慢慢流行起来。接下来，我们就分别看看不同环境下Spark的运行. Local 模式Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用 ...

2021-05-21 Spark