MySQL去重中distinct和group by的区别浅析

2024-04-02 19:04:59 548人浏览薄情痞子

摘要

今天在写业务需要对数据库重复字段进行去重时，因为是去重，首先想到的是distinct关键字。于是一小时过去了。。。。（菜鸟一个，大家轻点骂）我把问题的过程用sql语句演示给大家演示一下首先我使用的是mybatis-p

今天在写业务需要对数据库重复字段进行去重时，因为是去重，首先想到的是distinct关键字。于是一小时过去了。。。。（菜鸟一个，大家轻点骂）

我把问题的过程用sql语句演示给大家演示一下

首先我使用的是mybatis-plus，代码如下

QueryWrapper<ProjectCompany> wrapper = new QueryWrapper<>();
        wrapper.select("DISTINCT project_id,company_id,company_name,is_delete").eq("project_id",projectId).eq("is_delete","0");

即 "DISTINCT project_id,company_id,company_name,is_delete"

查出的结果

MySQL去重中distinct和group by的区别浅析

id=null。这是我不希望看到的。没有id的话，下面的业务就不好走了。

于是我在distinct后面加上了id，distinct查出来的数据就是全部数据了，相当于distinct没起作用。冥思苦想一小时。。。。

后来想到了group by分组，于是用了一下

LambdaQueryWrapper<ProjectCompany> wrapper = new LambdaQueryWrapper<>();
        wrapper.eq(ProjectCompany::getProjectId,projectId).eq(ProjectCompany::getIsDelete,"0").groupBy(ProjectCompany::getProjectId);

发现查出来的数据也进行去重了，id也有值

所以就很好奇 distinct和group by有啥区别，大概总结以下几点：

distinct适合查单个字段去重，支持单列、多列的去重方式。单列去重的方式简明易懂，即相同值只保留1个。
多列的去重则是根据指定的去重的列信息来进行，即只有所有指定的列信息都相同，才会被认为是重复的信息。

而 group by 可以针对要查询的全部字段中的部分字段去重，它的作用主要是：获取数据表中以分组字段为依据的其他统计数据。

补充：mysql中distinct和group by去重性能对比

前言

Mysql：5.7.17
存储引擎：InnoDB
实验目的：本文主要测试在某字段有无索引、各种不同值个数情况下，记录对此字段其使用DISTINCT/GROUP BY去重的查询语句执行时间，对比两者在不同场景下的去重性能，实验过程中关闭mysql查询缓存。
实验表格：

表名	记录数	查询字段有无索引	查询字段不同值个数
tab_1	100000	N	3
tab_2	100000	Y	3
tab_3	100000	N	10000
tab_4	100000	Y	10000

实验过程

1）创建测试表

表创建语句：

DROP TABLE IF EXISTS `tab_1`;
CREATE TABLE `tab_1` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `value` int(10) unsigned NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

DROP TABLE IF EXISTS `tab_2`;
CREATE TABLE `tab_2` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `value` int(10) unsigned NOT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_value` (`value`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

DROP TABLE IF EXISTS `tab_3`;
CREATE TABLE `tab_3` LIKE `tab_1`;

DROP TABLE IF EXISTS `tab_4`;
CREATE TABLE `tab_4` LIKE `tab_2`;

2）生成测试数据

表数据插入过程：

DROP PROCEDURE IF EXISTS generateRandomData;
delimiter $$
-- tblName为插入表,field为插入字段,num为插入字段值上限,count为插入的记录数
CREATE PROCEDURE generateRandomData(IN tblName VARCHAR(30),IN field VARCHAR(30),IN num INT UNSIGNED,IN count INT UNSIGNED)
BEGIN
	-- 声明循环变量
	DECLARE i INT UNSIGNED DEFAULT 1;
	-- 循环插入随机整数1~num,共插入count条数据
	w1:WHILE i<=count DO
		set i=i+1;
		set @val = FLOOR(RAND()*num+1);
		set @statement = CONCAT('INSERT INTO ',tblName,'(`',field,'`) VALUES(',@val,')');
		PREPARE stmt FROM @statement;
		EXECUTE stmt;
	END WHILE w1;
END $$
delimiter ;

调用过程随机生成测试数据：

call generateRandomData('tab_1','value',3,100000);
INSERT INTO tab_2 SELECT * FROM tab_1;

call generateRandomData('tab_3','value',10000,100000);
INSERT INTO tab_4 SELECT * FROM tab_3;

3）执行查询语句，记录执行时间

查询语句及对应执行时间如下：

SELECT DISTINCT(`value`) FROM tab_1;
SELECT `value` FROM tab_1 GROUP BY `value`;

SELECT DISTINCT(`value`) FROM tab_2;
SELECT `value` FROM tab_2 GROUP BY `value`;

SELECT DISTINCT(`value`) FROM tab_3;
SELECT `value` FROM tab_3 GROUP BY `value`;

SELECT DISTINCT(`value`) FROM tab_4;
SELECT `value` FROM tab_4 GROUP BY `value`;

4）实验结果

表名	记录数	查询字段有无索引	查询字段不同值个数	DISTINCT	GROUP BY
tab_1	100000	N	3	0.058s	0.059s
tab_2	100000	Y	3	0.030s	0.027s
tab_3	100000	N	10000	0.072s	0.073s
tab_4	100000	Y	10000	0.047s	0.049s

实验结论

MySQL 5.7.17中使用distinct和group by进行去重时，性能相差不大

实验过程及结论，如有不足之处，欢迎指正，此实验结论仅供参考。

总结

到此这篇关于MySQL去重中distinct和group by区别浅析的文章就介绍到这了,更多相关MySQL去重distinct和group by区别内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

您可能感兴趣的文档:

--结束END--

本文标题: MySQL去重中distinct和group by的区别浅析

本文链接: https://lsjlt.com/news/117106.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

MySQL去重中distinct和group by的区别浅析

今天在写业务需要对数据库重复字段进行去重时，因为是去重，首先想到的是distinct关键字。于是一小时过去了。。。。（菜鸟一个，大家轻点骂）我把问题的过程用sql语句演示给大家演示一下首先我使用的是myBATis-p...

99+

2024-04-02
MySQL去重中distinct和group by的区别浅析

今天在写业务需要对数据库重复字段进行去重时，因为是去重，首先想到的是distinct关键字。于是一小时过去了。。。。（菜鸟一个，大家轻点骂）我把问题的过程用sql语句演示给大家演示...

99+

2022-11-13

mysql去重distinct和group by mysql distinct group by MySQL去重复
MySQL中distinct和group by去重效率区别浅析

目录一、distinct二、group by三、distinct 和 group by 比较总结一、distinct distinct的作用在mysql中，distinct关键字的主要作用就是对数据库表中一个或者多个字...

99+

2023-03-03

mysql distinct去重 mysql去重查询group by sql group by去重
MySQL中distinct和group by去重效率区别浅析

目录一、distinct二、group by三、distinct 和 group by 比较总结一、distinct distinct的作用在mysql中，distinct关键字的...

99+

2023-03-03

mysql distinct去重 mysql去重查询group by sql group by去重
Mysql: distinct去重 group by的区别

单纯的去重操作使用distinct，速度是快于group by的。 distinct支持单列、多列的去重方式。单列去重的方式简明易懂，即相同值只保留1个。多列的去重则是根据指定的去重的列信息来进行，即只有所有指定的列信息都相同，才...

99+

2018-10-31

Mysql: distinct去重 group by的区别
Mysql中distinct与group by的去重方面的区别

distinct简单来说就是用来去重的，而group by的设计目的则是用来聚合统计的，两者在能够实现的功能上有些相同之处，但应该仔细区分。单纯的去重操作使用distinct，速度是快于group by的...

99+

2024-04-02
MySQL中distinct和group by去重效率区别是什么

本篇内容介绍了“MySQL中distinct和group by去重效率区别是什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！一、...

99+

2023-07-05
MySQL 中 SELECT DISTINCT 与 GROUP BY 的区别？

SELECT DISTINCT 可用于给出不同的值。用它来删除重复的记录并它也可以与聚合函数一起使用。例如：MAX、AVG等。这个都可以应用在单个列上。现在，我正在创建一个表以对列使用 SELECT DISTINCT。创建一个表...

99+

2023-10-22
MySQL去重该使用distinct还是group by？

前言关于group by 与distinct 性能对比:网上结论如下，不走索引少量数据distinct性能更好，大数据量group by 性能好，走索引group by性能好。走索引时分组种类少distinct快。...

99+

2022-05-29

mysql 去重distinct group by
分析PostgreSQL中的distinct和group by

本篇内容介绍了“分析PostgreSQL中的distinct和group by”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅...

99+

2024-04-02
Hive数据去重的两种方式 (distinct和group by)

目录1.distinct消除重复行2.group by 分组语句3.区别总结实现数据去重有两种方式：distinct 和 group by 1.distinct消除重复行 distinct支持单列、多列的去重方式。单...

99+

2023-01-03

hive数据去重复 hive 数据去重 hive删除重复数据
Hive数据去重的两种方式 (distinct和group by)

目录1.distinct消除重复行2.group by 分组语句3.区别总结实现数据去重有两种方式：distinct 和 group by 1.distinct消除重复行 dist...

99+

2023-01-03

hive数据去重复 hive 数据去重 hive删除重复数据
说Mysql的distinct语句和group by，order by

最近，在做一个项目的时候，发现得出的数据于预料的相差很多，仔细的研究了一下，发现问题出在 distinct语句和groupy by，order by首先，distinct语句，获得非重复的（唯一）行记.gr...

99+

2024-04-02
mysql group by与order by的区别

本篇内容介绍了“mysql group by与order by的区别”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学...

99+

2024-04-02
in和exists的区别以及exists和distinct去重的区别？

小编相信大家都知道in和exists的区别：1、运用情况不同sql中in适用于子查询得出的结果集记录较少，主查询中的表较大且又有索引的表,。sql中exist适用于外层的主查询记录较少，子查询中的表大，又有...

99+

2024-04-02
浅谈MySQL中的group by

目录1、前言 2、准备user表2.1 group by规则2.2 group by使用2.3 having使用2.4 order by与limit2.5 with rol...

99+

2024-04-02
MySQL中的distinct与group by如何使用

这篇文章主要讲解了“MySQL中的distinct与group by如何使用”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“MySQL中的distinct与group by...

99+

2023-07-05
sql中order by和group by的区别是什么

sql中order by和group by的区别是什么，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。order by 从英文里...

99+

2024-04-02
如何浅谈MySQL中的group by

今天就跟大家聊聊有关如何浅谈MySQL中的group by，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。1、前言MySQL的group by用于对查询的数据进行分组；此外MySQL提...

99+

2023-06-25
MySQL中的distinct与group by比较使用方法

目录distinct的使用distinct用法distinct 多列去重group by的使用单列去重多列去重区别示例distinct和group by原理隐式排序先说大致的结论：在语义相同，有索引的情况下：grou...

99+

2023-03-10

MySQLdistinct与groupby MySQLdistinct MySQLgroupby