扫码关注官方微信

扫码下载APP

返回顶部

首页 > 资讯 > 数据库 >为什么MySQL分库分表后总存储大小变大了？

175

0

分享到

为什么MySQL分库分表后总存储大小变大了？

为什么MySQL分库分表后总存储大小变大了？ 2014-11-16 23:11:54 175人浏览猪猪侠

摘要

回过头来，需要进一步了解下为什么会出现这样的情况。与标题的问题的类似问题还有，为什么表数据内容删除了而表大小没有变化。其本质都是一样的。要回答这些问题，我们需要从Mysql的索引模型谈起。 2.InnoDB 的索引模型由于 Inno

为什么MySQL分库分表后总存储大小变大了？

回过头来，需要进一步了解下为什么会出现这样的情况。

与标题的问题的类似问题还有，为什么表数据内容删除了而表大小没有变化。其本质都是一样的。

要回答这些问题，我们需要从Mysql的索引模型谈起。

为什么MySQL分库分表后总存储大小变大了？

2.InnoDB 的索引模型

由于 InnoDB 存储引擎在 mysql 数据库中使用最为广泛，所以接下来就以 InnoDB 为例，分析其中的索引模型。

在 InnoDB 中，表都是根据主键顺序以索引的形式存放的，这种存储方式的表称为索引组织表。而InnoDB中，使用了 B+ 树索引模型，所以数据都是存储在 B+ 树中的，每一个索引会对应一颗B+树。

假设，我们有一个主键列为 ID 的表，表中有字段 k，并且在 k 上有索引，建表语句如下

CREATE TABLE `t` (

`id` int(11) NOT NULL,

`k` int(11) NOT NULL,

`name` varchar(16) DEFAULT NULL,

PRIMARY KEY (`id`),

KEY `k` (`k`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8

为什么MySQL分库分表后总存储大小变大了？

表中 R1~R5 的 (ID,k) 值分别为 (10,1)、(20,2)、(30,3)、(50,5) 和 (70,7)，索引id和索引k的B+树的示例示意图如下。

根据叶子节点的内容，索引类型分为主键索引和非主键索引，主键索引的叶子节点存的是整行数据R1~R5，非主键索引的叶子节点内容是主键的值。

从图中可以看出，基于非主键索引的查询需要多扫描一棵索引树才能找到对应的数据。

提一句题外话，我们在应用中应该尽量使用主键查询。

3.索引维护

B+ 树为了维护索引有序性，在增删改数据的时候需要做必要的维护。

假设，我们要删掉 R4 这个记录，InnoDB 引擎只会把 R4 这个记录标记为删除。如果之后要再插入一个 ID 在 300 和 600 之间的记录时，可能会复用这个位置。

如果删掉了一个数据页上的所有记录，那么整个数据页就能被复用了。进一步地，如果我们用 delete 命令把整个表的数据删除呢？结果就是，这个表相关的所有的数据页都会被标记为可复用。

但是，无论如何，磁盘文件的大小并不会缩小。

这些被标记为可复用，而并没有实际被使用的空间，就是一些“存储空洞”。

为什么MySQL分库分表后总存储大小变大了？

实际上，不止是删除数据会造成空洞，插入数据也会。

以上图为例，如果插入新的行 ID 值为 80，则只需要在 R5 的记录后面插入一个新记录。

如果新插入的 ID 值为 60，就相对麻烦了，需要逻辑上挪动后面的数据，空出位置。

而更糟的情况是，如果 R5 所在的数据页已经满了，根据 B+ 树的算法，这时候需要申请一个新的数据页，然后挪动部分数据过去。这个过程称为页分裂。在这种情况下，性能自然会受影响。

除了性能外，页分裂操作还影响数据页的利用率。原本放在一个页的数据，现在分到两个页中，插入一条记录竟然使得整体空间利用率降低大约 50%。

可以看到，由于 page 2 满了，再插入一个 ID 是 60 的数据时，就不得不再申请一个新的页面 page 3 来保存数据了。

页分裂完成后，page 2 的末尾就留下了空洞（注意：实际上，可能不止 1 个记录的位置是空洞）。

另外，更新索引上的值，可以理解为删除一个旧的值，再插入一个新值。不难理解，这也是会造成空洞的。

因此，大量的增删改之后的表，都是可能存在很大的“数据空洞”的。

因此，我们就能解释，为什么分表后的总存储变大了。

因为分表后，需要从老库全量同步数据到新库，数据同步平台开启多个线程进行同步，插入各个分表并不是按照递增的顺序插入的，因此，会产生巨量的“数据空洞”，造成存储空间变大。

如果能够把这些空洞去掉，就能达到收缩表空间的目的。而重建表就能达到这样的目的。

4.重建表

如果我们手动重建一张表，可以新建一个与表 A 结构相同的表 B，然后按照主键 ID 递增的顺序，把数据一行一行地（就是递增地）从表 A 里读出来再插入到表 B 中。由于表 B 是新建的表，所以表 A 主键索引上的空洞，在表 B 中就都不存在了。显然地，表 B 的主键索引更紧凑，数据页的利用率也更高。如果我们把表 B 作为临时表，数据从表 A 导入表 B 的操作完成后，用表 B 替换 A，从效果上看，就起到了收缩表 A 空间的作用。

这里，你可以使用 alter table A engine=InnoDB 命令来重建表。在 Mysql 5.5 版本之前，这个命令的执行流程跟我们前面描述的差不多，区别只是这个临时表 B 不需要你自己创建，MySQL 会自动完成转存数据、交换表名、删除旧表的操作。显然，花时间最多的步骤是往临时表插入数据的过程，如果在这个过程中，有新的数据要写入到表 A 的话，就会造成数据丢失。因此，在整个 DDL 过程中，表 A 中不能有更新。也就是说，这个 DDL 不是 Online 的。

MySQL 5.6 版本开始引入的 Online DDL，对这个操作流程做了优化。

建立一个临时文件，扫描表 A 主键的所有数据页；
用数据页中表 A 的记录生成 B+ 树，存储到临时文件中；
生成临时文件的过程中，将所有对 A 的操作记录在一个日志文件（row log）中；
临时文件生成后，将日志文件中的操作应用到临时文件，得到一个逻辑数据上与表 A 相同的数据文件；(应用row log的过程可能又回有页分裂)
用临时文件替换表 A 的数据文件。

可以看到，在这个过程中，由于日志文件记录和重放操作这个功能的存在，这个方案在重建表的过程中，允许对表 A 做增删改操作。这也就是 Online DDL 名字的来源。

需要补充说明的是，上述的这些重建方法都会扫描原表数据和构建临时文件。对于很大的表来说，这个操作是很消耗 IO 和 CPU 资源的。因此，如果是线上服务，你要很小心地控制操作时间。

optimize table、analyze table 和 alter table 这三种方式重建表的区别：

从 MySQL 5.6 版本开始，alter table t engine = InnoDB（也就是 recreate）默认的就是上面online DDL 的流程了；
analyze table t 其实不是重建表，只是对表的索引信息做重新统计，没有修改数据，这个过程中加了 MDL 读锁；
optimize table t 等于 recreate+analyze。

参考内容：

丁奇《MySQL 45讲》

看到这里了，原创不易，点个关注、点个赞吧，你最好看了～

知识碎片重新梳理，构建Java知识图谱：https://GitHub.com/saigu/JavaKnowledgeGraph（历史文章查阅非常方便）

扫码关注我的公众号“阿丸笔记”，第一时间获取最新更新。同时可以免费获取海量Java技术栈电子书、各个大厂面试题。

阿丸笔记

您可能感兴趣的文档:

--结束END--

本文标题: 为什么MySQL分库分表后总存储大小变大了？

本文链接: https://lsjlt.com/news/4738.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

为什么MySQL分库分表后总存储大小变大了？

回过头来，需要进一步了解下为什么会出现这样的情况。与标题的问题的类似问题还有，为什么表数据内容删除了而表大小没有变化。其本质都是一样的。要回答这些问题，我们需要从mysql的索引模型谈起。 2.InnoDB 的索引模型由于 Inno...

99+

2014-11-16

为什么MySQL分库分表后总存储大小变大了？
MySQL分库分表后总存储变大了的原因是什么

本篇内容介绍了“MySQL分库分表后总存储变大了的原因是什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！...

99+

2024-04-02
MySQL存储的字段为什么是不区分大小写的

下面一起来了解下MySQL存储的字段为什么是不区分大小写的，相信大家看完肯定会受益匪浅，文字在精不在多，希望MySQL存储的字段为什么是不区分大小写的这篇短内容是你想要的。 &nb...

99+

2024-04-02
MySQL中存储的数据查询的时候怎么区分大小写

这篇文章主要介绍了MySQL中存储的数据查询的时候怎么区分大小写的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇MySQL中存储的数据查询的时候怎么区分大小写文章都会有所收获，下面我们一起来看看吧。场景描述今天在...

99+

2023-07-05
为什么NTFS删除超过4G大文件或数据库文件后FILE RECORD大小表现为0

为什么NTFS删除超过4G大文件或数据库文件后FILE RECORD大小表现为0？答：NTFS删除一个文件，必须要完成如下几个流程，才算完结：1、更改文件系统$bitmap，释放空间2、更改$mft fil...

99+

2024-04-02
MySQL中存储的数据查询的时候区分大小写问题

场景描述今天在将 Hive 表同步到 MySQL 之后，其中有一列是唯一列，但是在 MySQL 中查询的时候 count 与 distinct count 查询出来的数值是不一样的，这么来看的话是有...

99+

2023-09-02

mysql 数据库 hive
MySQL中存储的数据查询的时候如何区分大小写

目录场景描述解决办法1. 查询时指定大小写敏感2. 定义表结构时指定字段大小写敏感3. 修改排序规则（COLLATE）COLLATE是用来做什么的？各种COLLATE的区别COLLATE 设置级别及其优先级总结场景描述 ...

99+

2023-04-06

MySQL存储 MySQL数据查询 MySQL区分大小写
MySQL在Linux下的表名怎么不区分大小写

本篇内容介绍了“MySQL在Linux下的表名怎么不区分大小写”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成...

99+

2024-04-02
服务器分布式存储的六大优点是什么

本篇内容介绍了“服务器分布式存储的六大优点是什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！分布式存储往往采用分布式的系统结构，利用多台存...

99+

2023-06-02
MySQL 可以执行什么样的字符串比较（区分大小写或不区分大小写）？

MySQL在比较字符时无法执行区分大小写的比较。可以通过以下来自表格'Employee'的示例来说明：mysql> Select * from Employee; +----+--------+--------+ | ID ...

99+

2023-10-22
MySQL数据库表大小写不敏感处理的示例分析

本篇文章为大家展示了MySQL数据库表大小写不敏感处理的示例分析，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。MySQL大小写敏感的控制mysql是通过lower_...

99+

2024-04-02
MongoDB 哈希分片为什么数据大小不均匀？

MongoDB 哈希分片为什么数据大小不均匀？ http://www.mongoing.com/archives/4635 ...

99+

2024-04-02
为什么大部分人做不了架构师？这2点是关键

阿里妹导读：选择有时候比努力重要，真正厉害的人不仅仅是埋头苦干，而是会利用好的思维方式、好的方法，看穿事物的本质，顺势而为，找到事情的最优解，并懂得举一反三。架构师是程序员的目标之一，但大多数程序员无法成为架构师。真正厉害的架构师具备什么样...

99+

2023-06-05
WindowsXP系统所占空间内存为什么总是很大？空间占用大的原因分析与解决方法介绍

现象：自从安装了WindowsXP后，使用一段时间发现经常登陆的一个用户的文件夹所占的空间特别大约1.2GB；可是其他不常登陆的只有10MB左右，这是怎么回事？　WindowsXP为每个用户都设置了各自的文件夹，把登...

99+

2023-05-31

WindowsXP 空间内存大内存空间原因系统解决
云服务器包括数据库吗为什么没有显示内存大小

云服务器是一种虚拟的数据存储服务,它通常使用云计算平台提供的数据存储和处理功能,但并不是所有的云服务器都包括数据库服务。通常,它会有一个数据库管理员工具来管理数据库的使用,以提供数据库查询、更新和管理等服务。在没有内存的情况下,服务器可...

99+

2023-10-27

内存大小服务器数据库
后台管理系统中数据库存储文章用什么类型，mysql数据库中怎么存储大段文字呢？(1000个中文字符以上）

问题一个小型的文章系统的网站，用来存储内容content的字段，我选择的是varchar(8000),最多可容纳4000汉字，对绝大多数用户来说，应该够用了。但是一个问题是允许用户输入代码（HTML，JS，CSS等），实际上如果...

99+

2023-08-18

数据库 mysql java
我们报表用了很多存储过程，不好调试，改起来很麻烦，大家有什么好的存储过程调试工具推荐吗？

存储过程不好调试，无法移植，这是大家的共识，没啥改善空间了。原来存储过程是“不得不用”，因为前端的报表工具不具备复杂计算能力，而为报表准备数据的逻辑又很复杂，用存储过程方便些。但存储过程的缺点实在太多，除了不好调试，没法扩展，无法移...

99+

2015-10-12

我们报表用了很多存储过程，不好调试，改起来很麻烦，大家有什么好的存储过程调试工具推荐吗？
Java实体类属性和数据库字段都是大写字母，为什么返回给前端会变成小写字母

Java实体类属性和数据库字段都是大写字母，为什么返回给前端会变成小写字母 1. 问题描述2. 原因3. 解决方法 1. 问题描述最近我在开发系统的过程中发现了一个问题，我数据库中数据表的字段名使用的全是大写字母，Java...

99+

2023-08-19

java
如果 MySQL SUBSTRING_INDEX() 函数中的参数“count”的值大于分隔符出现的总数，会发生什么情况？

如果参数“count”的值大于分隔符出现的总数，MySQL SUBSTRING_INDEX() 函数将返回与输出相同的字符串。可以通过以下示例进行演示 -mysql> Select SUBSTRING_INDEX('My Na...

99+

2023-10-22
mysql 函数、事件( 建立一个存储引擎为memory(已建好)的表,通过事件实现插入的每条数据30分钟后自动删除)

use db; create table lg( id int unsigned, naem varchar(20), t timestamp, message varchar(100) ); select...

99+

2020-09-02

mysql 函数事件( 建立一个存储引擎为memory(已建好)的表通过事件实现插入的每条数据30分钟后自动删除)

软考高级职称资格查询

热门wiki

mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

近期文章

Python连接和操作PostgreSQL数据库的流程步骤

关于SQL建表语句使用详解

RedisTemplate的使用与注意事项小结

使用MySQL从JSON字符串提取数据的方法详解

MySQL免密登录的几种配置方式小结

Oracle更换监听端口的流程步骤

Linux的HBASE数据库集群部署方法

MySQL与HBase在数据湖架构中的互补与融合

HBase的Region Server资源分配与调度策略

MySQL的查询优化器与HBase的查询优化策略在大数据查询中的协同

推荐阅读

关于SQL建表语句使用详解

2024-10-23

HBase在大数据审计与合规性追踪中的应用

2024-10-22

MySQL与HBase在大数据金融分析中的性能与可扩展性对比

2024-10-22

HBase的Region Server之间的网络通信优化

2024-10-22

HBase在大数据监控与告警系统中的实时数据处理能力

2024-10-22

MySQL与HBase在大数据安全策略中的实现与对比

2024-10-22

HBase的分布式事务处理在复杂业务场景中的应用

2024-10-22

MySQL与HBase在混合存储架构中的整合策略

2024-10-22

HBase如何支持高效的二级索引查询

2024-10-22

MySQL与HBase在物联网数据收集与处理中的协作模式

2024-10-22

热门问答

1

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

1

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

1

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

1

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

1

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

1

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

1

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

1

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

1

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

1

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

编程网，编程工程师的家园，是目前国内优秀的开源技术社区之一，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。

官方手机版
微信公众号
商务合作

Powered by 编程网 | Copyright © 2018-2023, 版权所有. | 网站地图 | 苏ICP备17033115号