返回顶部
首页 > 资讯 > 后端开发 > 其他教程 >浅谈Usingfilesort和Usingtemporary为什么这么慢
  • 554
分享到

浅谈Usingfilesort和Usingtemporary为什么这么慢

2024-04-02 19:04:59 554人浏览 安东尼
摘要

目录1.简介2.Using filesort2.1 Using filesort 现象模拟2.2 Using filesort 之Mysql的执行过程2.2.1 全字段排序2.2.2

1.简介

我们都知道使用explain 分析sql语句的时候,如果,在Extra这一列发现Using index说明使用了覆盖索引,没有回表操作性能还不错;那么,如果发现是Using filesortUsing temporary 出现了文件排序,临时表, 这个时候,我们就需要进行索引优化了;那么,问题来了,我们需要怎么优化呢?为什么出现这两个的时候,mysql是怎么执行的呢?效率怎么就低下呢?所以,如果不知道它的执行原理的话,其实,我们也无法进行针对性的优化;所以,本文主要就是探讨一下Mysql 出现Using filesortUsing temporary时的场景和优化方法;

2.Using filesort

Using filesort: 文件排序;我们首先来模拟一下文件排序,然后再分析一下为什么文件排序效率较低;最后,在来说一下解决方案;

2.1 Using filesort 现象模拟

建表语句

CREATE table study (
	id int(11) not null,
	name varchar(32) DEFAULT NULL,
	score int(11) DEFAULT NULL,
	PRIMARY key (id)
) ENGINE=INNODB DEFAULT CHARSET=utf8;

现在,有一个需求需要把所有的同学都找出来,然后,按照成绩从高到低进行排序;很显然,sql语句可以这么写:

select id, name, score FROM study order by score DESC;

然后,我们对这个sql语句使用explain进行分析:

分析结果如下:使用的是全表扫描,在扫描的过程中,出现了Using filesort文件排序;很显然,对于文件排序我们需要进行优化;

2.2 Using filesort 之Mysql的执行过程

Using filesort 文件排序,其实文件排序的话,会有很多种情况,比如说:根据要排序的内容大小,就有内部排序外部排序;如果,排序的内容比较小,那么,在内存中就可以搞定,这就是内部排序(使用快排);如果,要排序的内容太大,那么,就得需要通过磁盘的帮助了,这个就是外部排序(使用归并)。
还有,就是根据一行的大小来进行区分,如果,一行的内容不是很大,那么,就整个字段读取出来进行排序,称为全字段排序;如果,整个字段内容很大,那么,就采用rowid排序,读取rowid和该字段先进行排序,然后,再回表查找其他的内容; 下面,我将分别解释在全字段排序和rowid排序的时候,这个sql的执行过程;

2.2.1 全字段排序

sql执行过程

  • 初始化sort_buffer,确定要放入的是id,name,score这三个字段
  • 全表扫描,取出id, name, score这三个字段的值,存入到sort_buffer中;
  • 对sort_buffer中的数据按照字段score做快速排序(在这里产生了filesort);
  • 将排序完的结果进行返回即可

注意:第三步可能是在内存中完成,但是,如果内存中排序数据量太大,内存放不下,则不得不利用磁盘临时文件辅助排序,如果,内存放不下的话,使用的就是外部排序,(将快排的结果写入到临时文件中)外部排序使用的是归并排序;(两个有序文件使用归并排序,时间复杂度为N效率较高)
总结:针对,Using filesort的全字段排序,使用快排时间复杂度为NlogN。所以,效率较低;应该避免。

2.2.2 rowid排序

rowid:一张表中如果没有主键或者非空唯一索引时,就会创建一个rowid大小为6字节;
产生背景: 在我们排序的过程中,因为,sort_buffer是有限的,如果,我们要查询的字段很多的话,那么,sort_buffer里面要放的字段数太多,这样内存能够同时放下的行数就会很少,就需要分成多个临时文件,再进行归并,排序的性能会很差;
为了解决这个问题,Mysql会进行优化,如果,一行数据大于一个阈值的话,读入到内存的时候,就是读取rowid + 要排序的字段;然后,再通过rowid回表去查询剩余的字段;我们通过SHOW VARIABLES LIKE '%max_length_for_sort_data%';这个指令可以查看这个阈值;
使用rowid的sql执行过程

  • 初始化sort_buffer,确定要放入的字段为 id, 和 score;
  • 全表扫描,取出id, score这两个字段的值,存入到sort_buffer中;
  • 对sort_buffer中的数据按照字段score做快速排序(如果,数据太多,可能会导致外部文件排序);
  • 所有数据排序好以后,根据id回表查询name字段的内容;
  • 把所有的数据返回给客户端

2.3 解决方案

针对,这个题目来说,解决方案也是比较简单的;要查询的字段是id , name, score;然后,需要对score进行排序。可以对score + name 建立联合索引,id是主键,这样,这三个字段都在普通索引中能够查询到,就解决了文件排序,也使用了覆盖索引;

create index index_score_name on study(score, name);

explain分析:

type = index 表示基于索引列的扫描;Extra = Using index 表示覆盖索引 Extra = Backward index scan;表示基于索引从后往前找;效果较佳;经过测试,使用索引,以空间换时间,把数据提交按照score排好序,符合我们的需求;

3.Using temporary

背景Mysql 执行查询语句时,对于order by 可能会导致filesort或者temporary。
原则:filesort只能应用于单个表上,如果,有多个表的数据需要进行排序,那么,Mysql会先创建一张临时表来保存数据,然后,再在临时表上使用filesort进行排序,最后输出结果。

3.1 场景再现

建表语句:

create table t1(    
id int, col1 int, col2 varchar(10),
key(id, col1));
create table t2(
id int, col1 int, col2 varchar(10),
key(col1));

情况一:

explain select * from t1 force index(id), t2 where t1.id=1 and t1.col1 = t2.col2 order by t1.col1;

这边,即没有使用temporary 也没有使用filesort。
那么,它是怎么执行的呢?
它其实是先定位t1.id;然后,定位t1.col1;这两个都是通过索引来进行;然后,在执行和t2表的联结(where)所以,没有文件排序和临时表;
情况二:

explain select * from t1 force index(id), t2 where t1.id=1 and t1.col1 = t2.col2 order by t1.col2;

这里是产生了filesort;执行过程如下:

  • 根据先定位t1.id;
  • 把id=1的都取出来,把所有的字段也都取出来;存到sort_buffer中。
  • 存入sort_buffer之后,需要根据t1的字段col2进行排序;
  • t1表排序好了后,根据排序好的结果集去联结t2表中的数据;(所以,没有产生临时文件)

情况三:

explain select * from t1 force index(id), t2 where t1.id=1 and t1.col1 = t2.col2 order by t2.col1 ;

这里,产生了temporary 和 filesort;执行过程如下:

  • 根据id索引先定位t1.id = 1所在行;
  • 由于order by的字段是在t2表上;所以,这个时候,不能排好序后再去联结t2表了;
  • 需要把t1 和 t2表先联结起来,保存到temporary表上,然后,再根据t2.col1字段进行filesort;所以效率是很慢的;

3.2 解决方案

通过,对temporary的分析,如果,要排序的字段在主表上,是不会产生temporary的;所以,如果可以的话,我们尽量修改sql语句 把要排序字段放在主表中;或者使用straight_join(强制把左边的表设置为驱动表); 针对情况三sql重写

select * from t2 force index(col1)  straight_join t1  on t1.id=1 and t1.col1 = t2.col2 order by t2.col1 ;

explain分析如下:

4.总结

本文主要是根据个人写了filesort、temporary 产生原因,处理方式;在处理方案上,可能考虑不足,如果,有一些其他的产生原因或者处理方案。欢迎交流;

到此这篇关于浅谈Using filesort和Using temporary 为什么这么慢的文章就介绍到这了,更多相关Using filesort Using temporary内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: 浅谈Usingfilesort和Usingtemporary为什么这么慢

本文链接: https://lsjlt.com/news/139635.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 浅谈Usingfilesort和Usingtemporary为什么这么慢
    目录1.简介2.Using filesort2.1 Using filesort 现象模拟2.2 Using filesort 之Mysql的执行过程2.2.1 全字段排序2.2.2...
    99+
    2024-04-02
  • Python为什么这么慢
    本篇内容介绍了“Python为什么这么慢”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Python 现在越来越火,已经迅速扩张到包括 Dev...
    99+
    2023-06-17
  • React新特性为什么产出这么慢
    本篇内容主要讲解“React新特性为什么产出这么慢”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“React新特性为什么产出这么慢”吧!有人曾说:每过一年,前端的...
    99+
    2024-04-02
  • 浅谈MySQL为什么会选错索引
    目录1.引例2.优化器的逻辑3.解决办法1.引例 首先创建一张表,并对字段a,b分别建立索引: create table t ( id int(11) not null, a int(11) defaul...
    99+
    2023-03-20
    MySQL 选错索引
  • 浅谈Java为什么只能单继承
    目录先屡清楚继承和实现的区别:分析原因:多继承虽然能使子类同时拥有多个父类的特征,但是其缺点也是很显著的,主要有两方面: (1)如果在一个子类继承的多个父类中拥有相同名字的实例变量,...
    99+
    2023-03-15
    Java 单继承
  • 浅谈为什么单线程的redis那么快
    目录redis单机QPS为什么这么快内存型数据库简单的数据结构单线程IO多路复用总结redis单机QPS ./redis-benchmark -t set,lpush -n 1...
    99+
    2024-04-02
  • 浅谈为什么#{}可以防止SQL注入
    目录#{} 和 ${} 的区别#{} 底层是如何防止 SQL 注入的?为什么能防止SQL注入?#{} 和 ${} 的区别 #{} 匹配的是一个占位符,相当于 JDBC 中的一个,会对...
    99+
    2024-04-02
  • 浅谈为什么MySQL不推荐使用子查询和join
    做分页查询: 对于mysql,不推荐使用子查询和join是因为本身join的效率就是硬伤,一旦数据量很大效率就很难保证,强烈推荐分别根据索引单表取数据,然后在程序里面做join,merge数据。 2.子查询就更别用...
    99+
    2022-05-29
    MySQL 子查询和join MySQL 子查询 MySQL join
  • 浅谈python为什么不需要三目运算符和switch
    对于三目运算符(ternary operator),python可以用conditional expressions来替代 如对于x<5?1:0可以用下面的方式来实现 1if x<5...
    99+
    2022-06-04
    不需要 浅谈 运算符
  • Mysql性能优化:为什么你的count(*)这么慢?
    导读 在开发中一定会用到统计一张表的行数,比如一个交易系统,老板会让你每天生成一个报表,这些统计信息少不了 sql 中的count函数。 但是随着记录越来越多,查询的速度会越来越慢,为什么会这样呢?Mysql内部到底是怎么处理的...
    99+
    2017-03-10
    Mysql性能优化:为什么你的count(*)这么慢?
  • 浅谈redis整数集为什么不能降级
    目录前言基本结构何时使用intsetintset添加元素类型变动升级加入65535旧数据移位降级为什么不实现降级小结前言 整数集合相信有的同学没有听说过,因为redis对外提供的只有...
    99+
    2024-04-02
  • 浅谈Thread.sleep()为什么要抛出中断异常
    从场景说起 假设sleep()方法不抛出中断异常,也就是线程没有中断响应能力,会怎么样? 考虑如下场景: 线程A:sleep中 线程B:A别睡了,要关机啦(向A发送中断信号) 线程A...
    99+
    2023-05-17
    Thread.sleep()中断 Thread.sleep()中断异常
  • 浅谈为什么重写equals()就要重写hashCode()
    目录一、hashCode()方法 二、equals()方法 三、hashCode() 与 equals() 3.1 不会创建“类对应的散列表”的情况 3.2 会创建“类对应的散列表”...
    99+
    2024-04-02
  • 一文解答为什么MySQL的count()方法这么慢
    目录前言count()的原理各种count()方法的原理允许粗略估计行数的场景必须精确估计行数的场景总结前言 mysql用count方法查全表数据,在不同的存储引擎里实现不同,myisam有专门字段记录全表的行数,直接读...
    99+
    2022-07-01
    MySQL的count()方法 MySQL count
  • 浅谈hashmap为什么查询时间复杂度为O(1)
    hashmap为什么查询时间复杂度为O(1) Hashmap是java里面一种类字典式数据结构类,能达到O(1)级别的查询复杂度,那么到底是什么保证了这一特性呢,这个就要从hashm...
    99+
    2024-04-02
  • 浅谈为什么MySQL不建议delete删除数据
    前言 我负责的有几个系统随着业务量的增长,存储在MySQL中的数据日益剧增,我当时就想现在的业务方不讲武德,搞偷袭,趁我没反应过来把很多表,很快,很快啊都打到了亿级别,我大意了,没有闪,这就导致跟其Join的表的S...
    99+
    2022-05-26
    MySQL不建议delete删除 MySQL delete删除
  • github为什么慢
    随着国内软件行业的迅速发展,越来越多的开发者开始使用Github这个开源代码托管平台。然而,许多人都会遇到Github慢的问题,这不仅浪费了开发者的时间,也影响了项目的开发进度。那么Github为什么会慢呢?1.网络延迟问题Github是全...
    99+
    2023-10-22
  • 浅谈pytorch中为什么要用 zero_grad() 将梯度清零
    pytorch中为什么要用 zero_grad() 将梯度清零 调用backward()函数之前都要将梯度清零,因为如果梯度不清零,pytorch中会将上次计算的梯度和本次计算的梯度...
    99+
    2024-04-02
  • 浅谈Vue3 defineComponent有什么作用
    目录defineComponent重载函数开发实践defineComponent函数,只是对setup函数进行封装,返回options的对象; export function d...
    99+
    2024-04-02
  • JavaScript为什么这么难
    本篇内容主要讲解“JavaScript为什么这么难”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“JavaScript为什么这么难”吧!难点隐式转换javascr...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作