扫码关注官方微信

扫码下载APP

返回顶部

首页 > 资讯 > 数据库 >分布式 | Global 表 Left Join 拆分表实现原因探究

134

0

分享到

分布式 | Global 表 Left Join 拆分表实现原因探究

分布式 |Global 表 Left Join 拆分表实现原因探究 2017-05-30 12:05:02 134人浏览无得

摘要

本文关键字：JOIN、原理解析、分库分表问题前几天，社区交流群一个小伙伴提出这样一个问题：小伙伴说：全局表和分片表的左连接能否支持 -- 目前测试 mycat 结果不对。很显然是想要脱坑的 mycat 用户，急需找个替代品

分布式 | Global 表 Left Join 拆分表实现原因探究

本文关键字：JOIN、原理解析、分库分表

问题

前几天，社区交流群一个小伙伴提出这样一个问题：

小伙伴说：全局表和分片表的左连接能否支持 -- 目前测试 mycat 结果不对。

很显然是想要脱坑的 mycat 用户，急需找个替代品，主要的是他也找到了，哈哈哈。

场景重现

首先我们创建一个全局表和一个拆分表，各自设置两个分片节点，全局表在两个节点数据一致，拆分表 id=1、2 的在一个节点，id=5000001 的在另一个节点，其中 id=1 和 id=2 的只有 id 字段值不同、code&content 字段值都一样。

mycat 场景重现

以上准备工作完成，接下来我们通过 a.id、b.code 将两张表左连接查询，结果如小伙伴所言：mycat 结果不对。

dble 场景重现

以上准备工作完成，接下来我们通过 a.id、b.code 将两张表左连接查询，结果如下所示；显而易见实际得到的结果符合预期想要的结果。

结果探究

根据以上使用 mycat 和 dble 进行 global left join 拆分表查询得到不同的结果，我们尝试着使用 explain 查看同一种类型的查询在执行计划上会有什么不同？

mycat 执行计划

根据上图执行计划，我们简单分析一下。

mycat 会将 sql 原封不动的交由分片配置的所有实例去执行，然后根据执行结果进行合并，这里合并只是简单的对结果进行累加，很显然这样的计划显示 mycat 内部处理逻辑是错误的。因为全局表在每个配置的节点都会存储相同的数据，如果将每个节点和拆分表 left join 的结果进行简单的 uNIOn all 合并，会造成数据的重复，不能保证数据的准确性。有些小伙伴可能猜想 union 不是会保证数据不重复吗？如果用 union 是否可行？同样分析一下。

上述结果仍然得不到我们想要的结果，因为 union 只是解决数据重复的问题，不适用于因为分片而导致的数据重复问题；试想一下，如果 DBLE 未来通过某种算法可以对各个节点的结果集做一个准确的合并，那么这样的问题也就迎刃而解，也会性能方面有个整体的提升。

实际上我们想象中的 X 算法还没有一个良好的实现和证明，但现在又要解决查询正确性的问题，那么 dble 是怎么做的呢？下面我们来看下 dble 的执行计划：

从上面执行计划来看，简单分析下流程：

dble 内部对于这种查询作出了一些区分：全局表只会下发一个实例，拆分表都会下发，然后针对结果做合并，这种处理逻辑肯定是没有错误的，只不过执行计划看起来相对复杂一些，这也代表在 dble 内部实现层面上下了不少功夫，但是这也是为了保证数据准确性而作出的一些牺牲吧。

您可能感兴趣的文档:

--结束END--

本文标题: 分布式 | Global 表 Left Join 拆分表实现原因探究

本文链接: https://lsjlt.com/news/6892.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

分布式 | Global 表 Left Join 拆分表实现原因探究

本文关键字：JOIN、原理解析、分库分表问题前几天，社区交流群一个小伙伴提出这样一个问题：小伙伴说：全局表和分片表的左连接能否支持 -- 目前测试 mycat 结果不对。很显然是想要脱坑的 mycat 用户，急需找个替代品...

99+

2017-05-30

分布式 | Global 表 Left Join 拆分表实现原因探究
解析探秘fescar分布式事务实现原理

目录前言项目说明fescar的TXC模型项目结构解析通过【examples】模块的实例看下效果第一步、第二步、第三步、fescar事务过程分析首先分析配置文件【TM】模块启动全局事务...

99+

2024-04-02
Python 分布式系统中路径规划的实现方法探究

在分布式系统中，路径规划是一个非常关键的问题。它涉及到如何在多个节点之间选择最优路径，以便在最短的时间内完成任务或传输数据。本文将探究 Python 分布式系统中路径规划的实现方法，并演示相关代码。一、路径规划的概念和意义路径规划是指...

99+

2023-10-24

分布式面试 path
如何在PostgreSQL中实现分区表和分布式查询

要在PostgreSQL中实现分区表和分布式查询，可以使用以下方法：使用分区表：PostgreSQL支持表分区，可以根据特定的...

99+

2024-03-14

PostgreSQL
设计 | ClickHouse 分布式表实现数据同步

作者：吴帆青云数据库团队成员主要负责维护 MySQL 及 ClickHouse 产品开发，擅长故障分析，性能优化。在多副本分布式 ClickHouse 集群中，通常需要使用 Distributed 表写入或读取数据，Distr...

99+

2021-07-11

设计 | ClickHouse 分布式表实现数据同步
从IDE到生产环境：Python分布式编程的实现方法探究。

从IDE到生产环境：Python分布式编程的实现方法探究 Python的分布式编程在现代应用程序开发中变得越来越重要。分布式编程是一种将应用程序分为多个独立的部分来进行开发和维护的方法。这种方法使得我们能够更好地利用硬件资源，提高应用程序的...

99+

2023-07-09

分布式重定向 ide
分布式 | DBLE 新全局表检查实现浅析

作者：孙正方爱可生 DBLE 核心研发成员，拥有丰富的分布式数据库中间件开发、咨询以及调优经验，擅长数据库中间件问题排查和处理，对线上中间件部分排错有深入的实践与认知。本文来源：原创投稿 *爱可生开源社区出品，原创内容未经授权不得随意...

99+

2022-03-26

分布式 | DBLE 新全局表检查实现浅析
PHP实时索引在分布式架构中的表现如何？

在分布式架构中，实时索引是非常重要的一环。实时索引可以让我们在大数据量的情况下，快速地查询和检索信息。PHP作为一种广泛使用的编程语言，也有着自己的实时索引解决方案。在本文中，我们将介绍PHP实时索引在分布式架构中的表现，并演示一些代码。...

99+

2023-07-06

实时索引分布式
Clickhouse 分布式表&本地表 &ClickHouse实现时序数据管理和挖掘

一、CK 分布式表和本地表（1）CK是一个纯列式存储的数据库，一个列就是硬盘上的一个或多个文件（多个分区有多个文件），关于列式存储这里就不展开了，总之列存对于分析来讲好处更大，因为每个列单独存储，所以每一列数据可以压缩，不仅节省了硬盘，...

99+

2015-01-15

Clickhouse 分布式表&本地表 &ClickHouse实现时序数据管理和挖掘
Java关键字在分布式实时数据处理中的性能表现如何？

Java是一种广泛使用的编程语言，特别适合于分布式实时数据处理。在Java中，有一些关键字在分布式实时数据处理中具有重要的性能表现。本文将探讨这些关键字的作用和性能表现，并通过演示代码来说明它们在分布式实时数据处理中的重要性。一、Java...

99+

2023-06-06

关键字分布式实时

软考高级职称资格查询

热门wiki

mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

近期文章

Python连接和操作PostgreSQL数据库的流程步骤

关于SQL建表语句使用详解

RedisTemplate的使用与注意事项小结

使用MySQL从JSON字符串提取数据的方法详解

MySQL免密登录的几种配置方式小结

Oracle更换监听端口的流程步骤

Linux的HBASE数据库集群部署方法

MySQL与HBase在数据湖架构中的互补与融合

HBase的Region Server资源分配与调度策略

MySQL的查询优化器与HBase的查询优化策略在大数据查询中的协同

推荐阅读

关于SQL建表语句使用详解

2024-10-23

HBase在大数据审计与合规性追踪中的应用

2024-10-22

MySQL与HBase在大数据金融分析中的性能与可扩展性对比

2024-10-22

HBase的Region Server之间的网络通信优化

2024-10-22

HBase在大数据监控与告警系统中的实时数据处理能力

2024-10-22

MySQL与HBase在大数据安全策略中的实现与对比

2024-10-22

HBase的分布式事务处理在复杂业务场景中的应用

2024-10-22

MySQL与HBase在混合存储架构中的整合策略

2024-10-22

HBase如何支持高效的二级索引查询

2024-10-22

MySQL与HBase在物联网数据收集与处理中的协作模式

2024-10-22

热门问答

1

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

1

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

1

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

1

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

1

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

1

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

1

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

1

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

1

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

1

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

编程网，编程工程师的家园，是目前国内优秀的开源技术社区之一，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。

官方手机版
微信公众号
商务合作

Powered by 编程网 | Copyright © 2018-2023, 版权所有. | 网站地图 | 苏ICP备17033115号