雄风静谧

HBase00-安装

启动Zookeeper 启动Hadoop：hdfs和yarn HBase的解压 tar -zxvf HBase-1.3.1-bin.tar.gz -C /opt/module 修改HBase的配置文件 HBase-env.sh export JAVA_HOME=/opt/module/ ...

2020-08-12 HBase

HBase01-概述

NoSQL简介关系型数据库的查询瓶颈: 当用户表的数据达到几千万甚至几亿级别的时候，对单条数据的检索将花费数秒甚至达到分钟级别。实际情况更复杂，查询的操作速度将会受到以下两个因素的影响： ①高并发的更新(插入、修改、删除)操作。大中型网站的并发操作一般能达到几十乃至几百并发，此时单条数据查询的延时 ...

2020-08-12 HBase

HBase02-HBase-shell操作

使用hbase shell可以进入一个shell命令行界面：bin/HBase shell 集群的操作'查看集群状态' 使用status可以查看集群状态，默认为summary，可以选择‘simple’和‘detailed’来查看详情 hbase(main):011:0> sta ...

2020-08-12 HBase

HBase03-HBase进阶

RegionServer 架构 StoreFile 保存实际数据的物理文件，StoreFile以Hfile的形式存储在HDFS上。每个Store会有一个或多个StoreFile（HFile），数据在每个StoreFile中都是有序的。 MemStore 写缓存，由于HFile中的数据要求是 ...

2020-08-12 HBase

HBase06-与Hive集成

HBase与Hive的对比1.Hive 数据仓库：Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。用于数据分析、清洗：Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce：Hive存储的数据依旧在Data ...

2020-08-12 HBase

HBase04-HBase-API

pom.xml中添加依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <versi ...

2020-08-12 HBase

HBase07-HBase优化

高可用在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。关闭HBase集群： bin/s ...

2020-08-12 HBase

HBase05-HBase-MR

MapReduce统计的需要：我们知道HBase的数据都是分布式存储在RegionServer上的，所以对于类似传统关系型数据库的group by操作，扫描器是无能为力的，只有当所有结果都返回到客户端的时候，才能进行统计。这样做一是慢，二是会产生很大的网络开销，所以使用MapReduce在服务器端就 ...

2020-08-12 HBase

HBase08-扩展

布隆过滤器在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元 ...

2020-08-12 HBase