雄风静谧

Zookeeper00-安装

官网首页：https://zookeeper.apache.org/ 本地模式安装部署安装安装JDK 解压Zookeeper安装包 [atguigu@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/ ...

2020-07-03 Hadoop

Zookeeper01-概述

概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。特点 Zookeeper：一个领导者（Leader），多个跟随者（Follower）组成的集群。集群中只要有半数以上(不包括一半)节点存活，Zookeeper集群就能正常服务。全局数据一致：每个Serv ...

2020-07-03 Hadoop

Zookeeper03-Shell操作

基本语法命令基本语法功能描述 help 显示所有操作命令 ls path [watch] 使用 ls 命令来查看当前znode中所包含的内容 ls2 path [watch] 查看当前节点数据并能看到更新次数等数据 create 普通创建; -s 含有序列; -e ...

2020-07-03 Hadoop

Zookeeper04-实战

API应用创建一个Maven工程添加pom文件 <dependencies> <dependency> <groupId>junit</groupId> <artifactId ...

2020-07-03 Hadoop

Zookeeper02-内部原理

选举机制相关概念 Serverid：服务器ID 比如有三台服务器，编号分别是1,2,3。编号越大在选择算法中的权重越大。 Zxid：数据ID 服务器中存放的最大数据ID. 值越大说明数据越新，在选举算法中数据越新权重越大。 Epoch：逻辑时钟或者叫投票的次数，同一轮投票过程中的逻 ...

2020-07-03 Hadoop

Hadoop01-概述、运行模式&源码编译

大数据概述 Hadoop三大发行版本：Apache、Cloudera、Hortonworks。 Apache版本最原始（最基础）的版本，对于入门学习最好。官网地址：http://hadoop.apache.org/releases.html 下载地址：https://archive.apach ...

2020-06-03 Hadoop

Hadoop02-HDFS概述、shell&客户端操作

HDFS概述HDFS（Hadoop Distributed File System）是一种分布式文件管理系统。通过目录树定位文件；其次有很多服务器联合起来实现其功能，集群中的服务器有各自的角色。应用场景：适合一次写入，多次读出的场景，且不支持文件的修改，适合用来做数据分析，不适合用来做网盘应用。 ...

2020-06-03 Hadoop

Hadoop03-HDFS读写流程&NN和2NN

HDFS数据流HDFS写数据流程剖析文件写入客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 NameNode返回是否可以上传。客户端请求第一个 Block上传到哪几个DataNode服务器上。 ...

2020-06-03 Hadoop

Hadoop04-HDFS-DataNode

DataNode工作机制一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。 DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。 <!-- ...

2020-06-03 Hadoop

Hadoop05-HDFS2.X新特性和高可用(HA)

HDFS 2.X新特性集群间数据拷贝采用distcp命令实现两个Hadoop集群之间的递归数据复制： [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop distcp hdfs://haoop102:9000/user/atguigu/hello.txt hd ...

2020-06-03 Hadoop

Hadoop06-MapReduce概述&序列化

MapReduce概述定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。优点 MapReduce 易于编 ...

2020-06-03 Hadoop

Hadoop08-Hadoop数据压缩

概述压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时，I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间，尤其是数据规模很大和工作负载密集的情况下，因此，使用数据压缩显得非常重要。鉴于磁盘I/O和网络带宽是Hadoop的 ...

2020-06-03 Hadoop

Hadoop09-Yarn资源调度

Yarn基本架构Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Contain ...

2020-06-03 Hadoop

Hadoop11-源码解析

NameNode 启动源码解析 DataNode 启动源码解析 HDFS上传源码解析 Yarn 源码解析 ...

2020-06-03 Hadoop

Hadoop10-生产调优手册

HDFS核心参数NameNode内存生产配置每个文件块大概占用 150byte，一台服务器 128G内存为例 128 * 1024 * 1024 * 1024 / 150Byte = 9.1亿 hadoop-env.sh hadoop2.x：NameNode内存默认 2000m，如果服务器内存 4 ...

2020-06-03 Hadoop

Hadoop07-MapReduce框架原理

InputFormat数据输入数据切片理解MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪 ...

2020-06-03 Hadoop