雄风静谧

HBase02-HBase-shell操作

使用hbase shell可以进入一个shell命令行界面：bin/HBase shell 集群的操作'查看集群状态' 使用status可以查看集群状态，默认为summary，可以选择‘simple’和‘detailed’来查看详情 hbase(main):011:0> sta ...

2020-08-12 HBase

HBase03-HBase进阶

RegionServer 架构 StoreFile 保存实际数据的物理文件，StoreFile以Hfile的形式存储在HDFS上。每个Store会有一个或多个StoreFile（HFile），数据在每个StoreFile中都是有序的。 MemStore 写缓存，由于HFile中的数据要求是 ...

2020-08-12 HBase

HBase06-与Hive集成

HBase与Hive的对比1.Hive 数据仓库：Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。用于数据分析、清洗：Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce：Hive存储的数据依旧在Data ...

2020-08-12 HBase

HBase04-HBase-API

pom.xml中添加依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <versi ...

2020-08-12 HBase

HBase07-HBase优化

高可用在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。关闭HBase集群： bin/s ...

2020-08-12 HBase

HBase05-HBase-MR

MapReduce统计的需要：我们知道HBase的数据都是分布式存储在RegionServer上的，所以对于类似传统关系型数据库的group by操作，扫描器是无能为力的，只有当所有结果都返回到客户端的时候，才能进行统计。这样做一是慢，二是会产生很大的网络开销，所以使用MapReduce在服务器端就 ...

2020-08-12 HBase

HBase08-扩展

布隆过滤器在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元 ...

2020-08-12 HBase

04-Hive

Hive安装解压apache-hive-1.2.1-bin.tar.gz 修改/opt/module/hive/conf 目录下的hive-env.sh.template 名称为hive-env.sh 配置hive-env.sh 文件配置HADOOP_HOME 路径： export ...

2020-07-03 Hive

Zookeeper00-安装

官网首页：https://zookeeper.apache.org/ 本地模式安装部署安装安装JDK 解压Zookeeper安装包 [atguigu@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/ ...

2020-07-03 Hadoop

Zookeeper01-概述

概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。特点 Zookeeper：一个领导者（Leader），多个跟随者（Follower）组成的集群。集群中只要有半数以上(不包括一半)节点存活，Zookeeper集群就能正常服务。全局数据一致：每个Serv ...

2020-07-03 Hadoop

Zookeeper03-Shell操作

基本语法命令基本语法功能描述 help 显示所有操作命令 ls path [watch] 使用 ls 命令来查看当前znode中所包含的内容 ls2 path [watch] 查看当前节点数据并能看到更新次数等数据 create 普通创建; -s 含有序列; -e ...

2020-07-03 Hadoop

Zookeeper04-实战

API应用创建一个Maven工程添加pom文件 <dependencies> <dependency> <groupId>junit</groupId> <artifactId ...

2020-07-03 Hadoop

Hive01-概述

什么是HiveHive：由Facebook 开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL 转化成MapReduce 程序 Hive 处理的数据存储在HDFS Hive 分析数据 ...

2020-07-03 Hive

Zookeeper02-内部原理

选举机制相关概念 Serverid：服务器ID 比如有三台服务器，编号分别是1,2,3。编号越大在选择算法中的权重越大。 Zxid：数据ID 服务器中存放的最大数据ID. 值越大说明数据越新，在选举算法中数据越新权重越大。 Epoch：逻辑时钟或者叫投票的次数，同一轮投票过程中的逻 ...

2020-07-03 Hadoop

Hive03-数据类型

基本数据类型 Hive 数据类型 Java 数据类型长度例子 TINYINT byte 1byte 有符号整数 20 SMALINT short 2byte 有符号整数 20 INT int 4byte 有符号整数 20 BIGINT long 8byte 有符号整数 ...

2020-07-03 Hive

Hive04-DDL

创建数据库hive> create database if not exists db_hive; -- 默认存储路径是/user/hive/warehouse/*.db。 hive> create database db_hive2 location '/db_hive2. ...

2020-07-03 Hive

Hive06-查询

相关指南：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference ...

2020-07-03 Hive

Hive07-函数

系统内置函数查看系统自带的函数：hive> show functions; 显示自带的函数的用法：hive> desc function upper; 详细显示自带的函数的用法：hive> desc function extended upper; 自定义函数 UDF（User-D ...

2020-07-03 Hive

Hive08-压缩和存储

Hadoop 源码编译支持Snappy 压缩 hadoop-2.7.2-src.tar.gz jdk-8u144-linux-x64.tar.gz snappy-1.1.3.tar.gz apache-maven-3.0.5-bin.tar.gz protobuf-2.5.0.tar.gz 准备 ...

2020-07-03 Hive

Hive05-DML

数据导入向表中装载数据（Load）hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] | into table student [partition (partcol1=val1, ...

2020-07-03 Hive

<1 2 345 6 7 >