首页 > 资讯 > 精选 >怎么用2个Unix命令给SQL提速

387

分享到

怎么用2个Unix命令给SQL提速

2023-06-16 10:06:52 387人浏览八月长安

摘要

这篇文章给大家分享的是有关怎么用2个Unix命令给sql提速的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。我试图在 MariaDB(MySQL)上运行一个简单的连接查询，但性能简直糟糕透了。如何将查询时间从 38

这篇文章给大家分享的是有关怎么用2个Unix命令给sql提速的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

我试图在 MariaDB(MySQL)上运行一个简单的连接查询，但性能简直糟糕透了。如何将查询时间从 380 小时降到 12 小时以下的。

下面就是这个查询，它是 GHTorrent 分析的一部分，我使用了关系在线分析处理框架 simple-rolap 来实现这个分析。

select distinct  project_commits.project_id,  date_fORMat(created_at, &lsquo;%x%v1&rsquo;) as week_commit  from project_commits  left join commits  on project_commits.commit_id = commits.id;

两个连接字段都有索引。不过，MariaDB 是通过对 project_commits 进行全表扫描和对 commits 进行索引查找来实现连接的。这可以从 EXPLaiN 的输出看出来。

这两个表中的记录比较多：project_commits 有 50 亿行记录，commits 有 8.47 亿行记录。服务器的内存比较小，只有 16GB。所以很可能是因为内存放不下那么大的索引，需要读取磁盘，因此严重影响到了性能。从 pmonitor 对临时表的分析结果来看，这个查询已经运行半天了，还需要 373 个小时才能运行完。

/home/Mysql/ghtorrent/project_commits#P#p0.MYD 6.68% ETA 373:38:11

在我看来，这个太过分了，因为排序合并连接(sort-merge join)所需的 I/O 时间应该要比预计的执行时间要低一个数量级。我在 dba.stackexchange.com 上寻求帮助，有人给出了一些建议让我尝试，但我没有信心它们能够解决我的问题。我尝试了***个建议，结果并不乐观。尝试每个建议都需要至少半天的时间，后来，我决定采用一种我认为可以有效解决这个问题的办法。

我将这两个表导出到文件中，使用 Unix 的 join 命令将它们连接在一起，将结果传给 uniq，把重复的行移除掉，然后将结果导回到数据库。导入过程(包括重建索引)从 20:41 开始，到第二天的 9:53 结束。以下是具体操作步骤。

1. 将数据库表导出为文本文件

我先导出连接两个表需要用到的字段，并按照连接字段进行排序。为了确保排序顺序与 Unix 工具的排序顺序兼容，我将字段转换为字符类型。

我将以下 SQL 查询的输出保存到文件 commits_week.txt 中。

select cast(id as char) as cid,  date_format(created_at, &lsquo;%x%v1&rsquo;) as week_commit  from commits  order by cid;

然后将以下 SQL 查询的输出保存到 project_commits.txt 文件中：

select cast(commit_id as char) as cid, project_id  from project_commits  order by cid;

这样就生成了以下两个文件。

-rw-r&ndash;r&ndash; 1 dds dds 15G Aug 4 21:09 commits_week.txt  -rw-r&ndash;r&ndash; 1 dds dds 93G Aug 5 00:36 project_commits.txt

为了避免内存不足，我使用 –quick 选项来运行 mysql 客户端，否则客户端会在输出结果之前尝试收集所有的记录。

2. 使用 Unix 命令行工具处理文件

接下来，我使用 Unix 的 join 命令来连接这两个文本文件。这个命令线性扫描两个文件，并将***个字段相同的记录组合在一起。由于文件中的记录已经排好序，因此整个过程完成得很快，几乎就是 I/O 的速度。我还将连接的结果传给 uniq，用以消除重复记录，这就解决了原始查询中的 distinct 问题。同样，在已经排好序的输出结果上，可以通过简单的线性扫描完成去重。

这是我运行的 Unix 命令。

join commits_week.txt project_commits.txt | uniq >joined_commits.txt

经过一个小时的处理，我得到了想要的结果。

-rw-r&ndash;r&ndash; 1 dds dds 133G Aug 5 01:40 joined_commits.txt

3. 将文本文件导回数据库

***，我将文本文件导回数据库。

create table half_life.week_commits_all (project_id INT(11) not null,week_commit CHAR(7)) ENGINE=MyISAM;load data local infile &lsquo;joined_commits.txt&rsquo;into table half_life.week_commits_allfields terminated by &lsquo; &lsquo;;

感谢各位的阅读！关于“怎么用2个Unix命令给SQL提速”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

--结束END--

本文标题: 怎么用2个Unix命令给SQL提速

本文链接: https://lsjlt.com/news/283268.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

怎么用2个Unix命令给SQL提速

怎么用2个Unix命令给SQL提速

Unix中awk命令怎么用

怎么快速实现命令行提示

unix系统中怎么用终端命令提高工作效率

Unix系统中怎么使用chmod命令

SQL中SQLLDR 命令怎么用

C#中SQL命令怎么用

SQL命令DELETE怎么使用

SQL中EXPLAIN命令怎么用

SQL的update命令怎么使用

SQL命令CREATE TRIGGER怎么使用

Unix/Linux提权漏洞快速检测工具unix-privesc-check怎么用

怎么利用for命令提权

Linux/Unix中怎么安装和使用z命令

服务器测速命令怎么用

LINQ to SQL查询和SQL命令怎么使用

chmod命令怎么在Linux与Unix系统中使用

linux快速跳转命令z怎么用

oracle怎么用命令执行sql文件

sql怎么用命令创建数据库

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南