首页 > 资讯 > 数据库 >技术分享 | Jump Consistent Hash 原理解析(上篇)

648

分享到

技术分享 | Jump Consistent Hash 原理解析(上篇)

技术分享 |Jump Consistent Hash 原理解析(上篇) 2021-01-24 07:01:41 648人浏览绘本

摘要

之前爱可生开源社区公众号发表了dble 沿用 jumpstringhash，移除 Mycat 一致性 hash 原因解析, 阐述了跳跃法相对环割法的性能优势。很多读者表示对其中"跳跃法的原理"不是很理解，本文就来详细阐述一下。一致性哈希

之前爱可生开源社区公众号发表了dble 沿用 jumpstringhash，移除 Mycat 一致性 hash 原因解析, 阐述了跳跃法相对环割法的性能优势。很多读者表示对其中"跳跃法的原理"不是很理解，本文就来详细阐述一下。

一致性哈希

首先，我们的需求是，将数据(key-value pair)分布在多个节点上。这点可以简单的用取模实现，

节点	key
1	1 4 7 10
2	2 5 8 11
3	3 6 9 12

然而，当增加新节点时，数据将发生大规模转移：

节点	key
1	(1) 5 9
2	(2) 6 10
3	(3) 7 11
4	4 8 12

一致性哈希的主要目的是，在节点数量发生变更时，只需要在节点间移动少量数据，而不是"全部洗牌"。

除了经典的环割法一致性哈希外，Google 发表了另一种实现简洁且高效的跳跃法一致性哈希《A Fast, Minimal Memory, Consistent Hash Algorithm》（文末附链接）

在爱可生开源数据库中间件 dble 中，关于 jump consistent hash 的配置方法详见 dble 官方手册中"跳增字符串算法"的部分（文末附链接）。

基础实现

与原始论文不同, 本文节点（又称 bucket）从 1 开始编号，而非从 0 开始。

先考虑只有一个节点的情况，显然所有数据都放在这个节点里, 即 ch(key,1)=1 （ch 为 consistent_hash 之缩写）。
考虑增加一个节点，我们随机抽取 1/2 的数据移动到 2 号节点
考虑再增加一个节点，需要从 1、2 号节点中，随机抽取共 1/3 的数据移动到 3 号节点
- 为了均匀分配, 1、2号需要各出 1/6 的数据
- 实际上，只要每个 key 都有 1/3 的概率被抽中，分配总是均匀的

可以看到，每增加一个节点，只需要移动总共 1/n 的数据，而不是取模法中的几乎所有数据。

所谓随机抽取，我们采用可重现的随机：首次调用 Rand() 之前将 key 作为随机数种子。因而对于一个 key，首次放入和后续取回使用的是相同的随机数序列。

例如有 k1,k2,k3 三个 key, 随着节点数量从 1 到 15 增长, 它们各自会在某一时刻“跳跃”，而后“稳定”一段时间。

	1	2	3	4	5	6	7	8	9	10	11	12	13	14
k1	1	1	3	3	5	5	5	5	5	5	5	5	5	5
k2	1	2	2	2	2	2	2	8	8	8	8	8	8	8
k3	1	2	2	2	2	6	6	8	8	8	11	11	11	11

我们用数学归纳法来表达一下某个 key 在不同节点数时的位置：

基础情况：只有一个节点，只能放在节点 1
归纳情况：假设目前有 n 个节点，增加一个节点到 n+1 个。key 目前所在的位置由之前的跳跃情况决定。本轮该 key 有 1/(n+1) 的概率被移到 n+1 号节点
- 即 n+1 节点时，key 所在的位置由 n 节点时的位置和一个随机变量 rand 决定, 如果 rand<1/(n+1), 它就会跳跃到 n+1 节点, 否则则和 n 节点时一样

结合基础情况和归纳情况，我们得出了 n 为任意正整数时的分配方法。数学归纳法的逻辑和递归代码直接对应:

  func ch(r *rand.Rand, k int, i int) int {
  	if i == 1 {
      	// 基础情况
      	return 1
      } else {
      	// 归纳情况
      	b := ch(k, i-1)
          if rand.Float() < 1.0/float64(i) {
  	        return i
          } else {
  	    	return b
          }
      }
  }

func ch_wrapper(k int, i int) int {
    r := rand.Seed(k) // 在计算之前, 将key作为随机数种子
    return ch(r, k, i)
}

注意，要先计算 ch(k, i-1) 再决定本轮是否跳转( if rand < 1.0/i )。不能因为本轮决定跳转就不计算上一轮的结果，否则会因节点数不同而产生不一样的随机序列。

工程代码中一般使用循环代替递归。本文不再赘述递归转循环的办法。

优化性能

我们看到，对于一个 key，我们要从 1~N（N 为节点数）循环一遍，即复杂度为节点数的线性关系. 原始论文中给出了一个巧妙的方法，使复杂度从线性降低到了对数：既然每一次是否跳跃的决策中我们随机决定，那么，与其一次次决定是否跳跃，我们是否能够直接随机地决定下一次跳跃的目标？当然，这个随机目标的取值符合一定的概率分布。

关于这个巧妙方法的具体内容和论证，敬请期待下篇。

文中相关资源链接： 《A Fast, Minimal Memory, Consistent Hash Algorithm》 https://arxiv.org/ftp/arxiv/papers/1406/1406.2294.pdf 《DBLE 手册中跳增字符算法部分》 Https://actiontech.GitHub.io/dble-docs-cn/1.config_file/1.01_rule.xml.html

您可能感兴趣的文档:

--结束END--

本文标题: 技术分享 | Jump Consistent Hash 原理解析(上篇)

本文链接: https://lsjlt.com/news/4292.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

技术分享 | Jump Consistent Hash 原理解析(上篇)

一致性哈希

基础实现

优化性能

技术分享 | Jump Consistent Hash 原理解析(上篇)

TcaplusDB君的小知识：TcaplusDB技术原理分享

PHP开发技术分享：数字转中文大写的实现原理解析

技术分享 | MySQL 组复制数据一致性管理解析

JVMCPUProfiler技术原理及源码的示例分析

OpenSCA技术原理npm依赖示例解析

PHP 字符串处理技术分享：解析去除右侧第一个字符的实现原理

技术分享 | 排序（filesort）详细解析（8000 字长文）

@RequestBody注解的原理及使用技巧分享

Android热修复技术原理之资源热修复技术的示例分析

用python爬取分析淘宝商品信息详解技术篇

MySQL Binlog 技术原理和业务应用案例分析

Ajax技术组成与核心原理的示例分析

Web网络安全分析SQL注入绕过技术原理

针对新型进程注入技术Ctrl-Inject原理分析

iOS应用重签名ipa技术原理及示例分析

从java源码分析线程池(池化技术)的实现原理

汇编语言中计算机底层技术原理的示例分析

服务端代码开发解析背后的技术原理和实践

PHP GraphQL 深度解析：探究它的工作原理和技术细节

关于SQL建表语句使用详解

HBase在大数据审计与合规性追踪中的应用

MySQL与HBase在大数据金融分析中的性能与可扩展性对比

HBase的Region Server之间的网络通信优化

HBase在大数据监控与告警系统中的实时数据处理能力

MySQL与HBase在大数据安全策略中的实现与对比

HBase的分布式事务处理在复杂业务场景中的应用

MySQL与HBase在混合存储架构中的整合策略

HBase如何支持高效的二级索引查询

MySQL与HBase在物联网数据收集与处理中的协作模式