首页 > 资讯 > 数据库 >Python如何识别MySQL中的冗余索引

858

分享到

Python如何识别MySQL中的冗余索引

2024-04-02 19:04:59 858人浏览独家记忆

摘要

目录前言脚本介绍表结构Mysql 元数据DEMO 演示sql 查询冗余索引后记前言最近在搞标准化巡检平台，通过 mysql 的元数据分析一些潜在的问题。冗余索引也是一个非常重要的巡

前言

最近在搞标准化巡检平台，通过 mysql 的元数据分析一些潜在的问题。冗余索引也是一个非常重要的巡检目，表中索引过多，会导致表空间占用较大，索引的数量与表的写入速度与索引数成线性关系(微秒级)，如果发现有冗余索引，建议立即审核删除。

PS：之前见过一个客户的数据库上面竟然创建 300 多个索引！？当时的想法是 “他们在玩排列组合呢” 表写入非常慢，严重影响性能和表维护的复杂度。

脚本介绍

表结构

下方是演示的表结构：

CREATE TABLE `index_test03` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `name` varchar(20) NOT NULL,
  `create_time` varchar(20) NOT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `uqi_name` (`name`),
  KEY `idx_name` (`name`),
  KEY `idx_name_createtime`(name, create_time)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

MySQL 元数据

MySQL 可以通过 infORMation_schema.STATISTICS 表查询索引信息：

SELECT * from information_schema.STATISTICS  where TABLE_SCHEMA = 'test02' and TABLE_NAME = 'index_test03';

TABLE_CATALOG	TABLE_SCHEMA	TABLE_NAME	NON_UNIQUE	INDEX_SCHEMA	INDEX_NAME	SEQ_IN_INDEX	COLUMN_NAME	COLLATION	SUB_PART	PACKED	INDEX_TYPE
def	test02	index_test03	0	test02	PRIMARY	1	id	A	NULL	NULL	BTREE
def	test02	index_test03	0	test02	uqi_name	1	name	A	NULL	NULL	BTREE
def	test02	index_test03	1	test02	idx_name	1	name	A	NULL	NULL	BTREE
def	test02	index_test03	1	test02	idx_name_createtime	1	name	A	NULL	NULL	BTREE
def	test02	index_test03	1	test02	idx_name_createtime	2	create_time	A	NULL	NULL	BTREE

脚本通过获得 STATISTICS 表中的索引信息来分析表中是否存在冗余索引，分析粒度为表级别。

DEMO 演示

需要使用 pandas 模块。

import pandas as pd

df_table_level = pd.read_excel('/Users/cooh/Desktop/STATISTICS.xlsx')

table_indexes = df_table_level['INDEX_NAME'].drop_duplicates().tolist()

_indexes = list()
for index_name in table_indexes:
    index_info = {'index_cols': df_table_level[df_table_level['INDEX_NAME'] == index_name]['COLUMN_NAME'].tolist(),
                  'non_unique': df_table_level[df_table_level['INDEX_NAME'] == index_name]['NON_UNIQUE'].tolist()[0],
                  'index_name': index_name
                  }
    _indexes.append(index_info)

content = ''
election_dict = {i['index_name']: 0 for i in _indexes}

while len(_indexes) > 0:
    choice_index_1 = _indexes.pop(0)

    for choice_index_2 in _indexes:
        # 对比两个索引字段的个数，使用字段小的进行迭代
        min_len = min([len(choice_index_1['index_cols']), len(choice_index_2['index_cols'])])

        # 获得相似字段的个数据
        similarity_col = 0
        for i in range(min_len):
            # print(i)
            if choice_index_1['index_cols'][i] == choice_index_2['index_cols'][i]:
                similarity_col += 1

        # 然后进行逻辑判断
        if similarity_col == 0:
            # print('毫无冗余')
            pass
        else:
            # 两个索引的字段包含内容都相同，说明两个索引完全相同，接下来就需要从中选择一个删除
            if len(choice_index_1['index_cols']) == similarity_col and len(
                    choice_index_2['index_cols']) == similarity_col:
                # 等于 0 表示有唯一约束
                if choice_index_1['non_unique'] == 1:
                    content += '索引 {0} 与索引 {1} 重复, '.format(choice_index_2['index_name'], choice_index_1['index_name'])
                    election_dict[choice_index_1['index_name']] += 1
                elif choice_index_2['non_unique'] == 1:
                    content += '索引 {0} 与索引 {1} 重复, '.format(choice_index_1['index_name'], choice_index_2['index_name'])
                    election_dict[choice_index_2['index_name']] += 1
                else:
                    content += '索引 {0} 与索引 {1} 重复, '.format(choice_index_2['index_name'], choice_index_1['index_name'])
                    election_dict[choice_index_1['index_name']] += 1

            elif len(choice_index_1['index_cols']) == similarity_col and choice_index_1['non_unique'] != 0:
                content += '索引 {0} 与索引 {1} 重复, '.format(choice_index_2['index_name'], choice_index_1['index_name'])
                election_dict[choice_index_1['index_name']] += 1

            elif len(choice_index_2['index_cols']) == similarity_col and choice_index_1['non_unique'] != 0:
                content += '索引 {0} 与索引 {1} 重复, '.format(choice_index_1['index_name'], choice_index_2['index_name'])
                election_dict[choice_index_2['index_name']] += 1

redundancy_indexes = list()
for _k_name, _vote in election_dict.items():
    if _vote > 0:
        redundancy_indexes.append(_k_name)

content += '建议删除索引：{0}'.format(', '.join(redundancy_indexes))

print(content)

输出结果：

索引 uqi_name 与索引 idx_name 重复, 索引 idx_name_createtime 与索引 idx_name 重复, 建议删除索引：idx_name

SQL 查询冗余索引

MySQL 5.7 是可以直接通过 sys 元数据库中的视图来查冗余索引的，但是云上 RDS 用户看不到 sys 库。所以才被迫写这个脚本，因为实例太多了，一个一个看不现实。如果你是自建的 MySQL，就不用费那么大劲了，直接使用下面 SQL 来统计。

select * from sys.schema_redundant_indexes;

后记

删除索引属于高危操作，删除前需要多次 check 后再删除。上面是一个 demo 可以包装成函数，使用 pandas 以表为粒度传入数据，就可以嵌入到程序中。有问题欢迎评论沟通。

到此这篇关于python 识别 MySQL 中的冗余索引的文章就介绍到这了,更多相关MySQL冗余索引内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: Python如何识别MySQL中的冗余索引

本文链接: https://lsjlt.com/news/120799.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python如何识别MySQL中的冗余索引

目录

前言

脚本介绍

表结构

MySQL 元数据

DEMO 演示

SQL 查询冗余索引

后记

Python如何识别 MySQL 中的冗余索引

Python如何识别MySQL中的冗余索引

MySQL中冗余和重复索引的区别说明

mysql中冗余和重复索引的区别及作用

mysql中怎么实现重复索引与冗余索引

MySQL查询冗余索引和未使用过的索引操作

MySQL中怎么利用pt-duplicate-key-checker找出冗余、重复索引

MySQL中的B-Tree引索与Hash引索有区别吗

MySQL中的索引如何优化

MySQL中B树索引和B+树索引的区别详解

MySQL中复合索引和覆盖索引的区别详解

MySQL中如何使用索引

MySQL中如何优化索引

MySQL中如何利用索引

mysql中如何删除索引

mysql中如何创建索引

MySQL中B树索引和B+树索引的区别是什么

MySQL中的组合索引与单列索引的区别有哪些

MySQL中InnoDB引擎如何对索引的扩展

如何在MySQL中创建索引

关于SQL建表语句使用详解

HBase在大数据审计与合规性追踪中的应用

MySQL与HBase在大数据金融分析中的性能与可扩展性对比

HBase的Region Server之间的网络通信优化

HBase在大数据监控与告警系统中的实时数据处理能力

MySQL与HBase在大数据安全策略中的实现与对比

HBase的分布式事务处理在复杂业务场景中的应用

MySQL与HBase在混合存储架构中的整合策略

HBase如何支持高效的二级索引查询

MySQL与HBase在物联网数据收集与处理中的协作模式