Zookeeper02-内部原理

NiuMT 2020-07-03 20:58:30

Hadoop

选举机制

选举流程

一、首先开始选举阶段，每个Server读取自身的zxid。

二、发送投票信息

2.1 首先，每个Server第一轮都会投票给自己。

2.2 投票信息包含：所选举leader的Serverid、Zxid、Epoch。Epoch会随着选举轮数的增加而递增。

三、接收投票信息

3.1 如果服务器B接收到服务器A的数据（服务器A处于选举状态(LOOKING 状态)

a. 首先，判断逻辑时钟值：

如果发送过来的逻辑时钟 Epoch 大于目前的逻辑时钟。首先，更新本逻辑时钟 Epoch，同时清空本轮收到的来自其他 server的选举数据。然后，根据判断规则判断是否需要更新当前自己的选举 leader Serverid。

如果发送过来的逻辑时钟 Epoch 小于目前的逻辑时钟。说明对方 server 在一个相对较早的 Epoch 中，忽略该 server 的投票，无需修改投票，并将本机的三种数据（leader Serverid，Zxid，Epoch）发送过去就行。

如果发送过来的逻辑时钟 Epoch 等于目前的逻辑时钟。再根据上述判断规则 rules judging 来选举 leader ，然后再将自身最新的选举结果（leader Serverid，Zxid，Epoch）广播给其他server。

b. 其次，判断服务器是不是已经收集到了所有服务器的选举状态：若是，根据选举结果设置自己的角色(FOLLOWING还是LEADER)，退出选举过程就是了。

最后，若没有收到没有收集到所有服务器的选举状态：也可以判断一下根据以上过程之后最新的选举leader是不是得到了超过半数以上服务器的支持,如果是,那么尝试在200ms内接收一下数据,如果没有新的数据到来,说明大家都已经默认了这个结果,同样也设置角色退出选举过程。

3.2 如果所接收服务器A处在其它状态（FOLLOWING或者LEADING）。

a. 逻辑时钟Epoch等于目前的逻辑时钟，将该数据保存到recvset。此时Server已经处于LEADING状态，说明此时这个server已经投票选出结果。若此时这个接收服务器宣称自己是leader, 那么将判断是不是有半数以上的服务器选举它，如果是则设置选举状态退出选举过程。

b. 否则这是一条与当前逻辑时钟不符合的消息，那么说明在另一个选举过程中已经有了选举结果，于是将该选举结果加入到outofelection集合中，再根据outofelection来判断是否可以结束选举,如果可以也是保存逻辑时钟，设置选举状态，退出选举过程。

假设有五台服务器组成的Zookeeper集群，它们的id从1-5，同时它们都是最新启动的，也就是没有历史数据，在存放数据量这一点上，都是一样的。

服务器1启动，此时只有它一台服务器启动了，它投自己一票，它发出去的报文没有任何响应，且票数未过半，所以它的选举状态一直是LOOKING状态。
服务器2启动，它也投自己一票，它与最开始启动的服务器1进行通信，互相交换自己的选举结果，由于两者都没有历史数据，所以id值较大的服务器2胜出，但是由于没有达到超过半数以上的服务器都同意选举它(这个例子中的半数以上是3)，所以服务器1、2还是继续保持LOOKING状态。
服务器3启动，根据前面的理论分析，服务器3成为服务器1、2、3中的老大，而与上面不同的是，此时有三台服务器选举了它，所以它成为了这次选举的Leader。
服务器4启动，根据前面的分析，理论上服务器4应该是服务器1、2、3、4中最大的，但是由于前面已经有半数以上的服务器选举了服务器3，所以它只能接受当小弟的命了。
服务器5启动，同4一样当小弟。

节点类型

持久（Persistent）：客户端和服务器端断开连接后，创建的节点不删除
短暂（Ephemeral）：客户端和服务器端断开连接后，创建的节点自己删除

持久化目录节点：客户端与Zookeeper断开连接后，该节点依旧存在
持久化顺序编号目录节点：客户端与Zookeeper断开连接后，该节点依旧存在，只是Zookeeper给该节点名称进行顺序编号
临时目录节点：客户端与Zookeeper断开连接后，该节点被删除
临时顺序编号目录节点：客户端与Zookeeper断开连接后，该节点被删除，只是Zookeeper给该节点名称进行顺序编号。

说明：创建znode时设置顺序标识，znode名称后会附加一个值，顺序号是一个单调递增的计数器，由父节点维护。

注意：在分布式系统中，顺序号可以被用于为所有的事件进行全局排序，这样客户端可以通过顺序号推断事件的顺序

Stat结构体

czxid-创建节点的事务zxid

每次修改 ZooKeeper 状态都会收到一个 zxid 形式的时间戳，也就是 ZooKeeper 事务ID。

事务 ID是 ZooKeeper 中所有修改总的次序。每个修改都有唯一的 zxid，如果 zxid1小于zxid2，那么zxid1在zxid2之前发生。
ctime - znode被创建的毫秒数(从1970年开始)
mzxid - znode最后更新的事务zxid
mtime - znode最后修改的毫秒数(从1970年开始)
pZxid-znode最后更新的子节点zxid
cversion - znode子节点变化号，znode子节点修改次数
dataversion - znode数据变化号
aclVersion - znode访问控制列表的变化号
ephemeralOwner- 如果是临时节点，这个是znode拥有者的session id。如果不是临时节点则是0。
dataLength- znode的数据长度
numChildren - znode子节点数量