扫码关注官方微信

扫码下载APP

返回顶部

首页 > 资讯 > 数据库 >MySQL字符集不一致导致性能下降25%，你敢信？

648

0

分享到

MySQL字符集不一致导致性能下降25%，你敢信？

MySQL字符集不一致导致性能下降25%，你敢信？ 2015-01-13 06:01:21 648人浏览无得

摘要

故事是这样的：我在对Mysql进行性能测试时，发现CPU使用率接近100%，其中80%us, 16%sys,3%wa，iOStat发现磁盘iops2000以下，avgqu-sz不超过3，%util最高70%，看来瓶颈不在磁盘IO

MySQL字符集不一致导致性能下降25%，你敢信？

故事是这样的：

我在对Mysql进行性能测试时，发现CPU使用率接近100%，其中80%us, 16%sys,3%wa，iOStat发现磁盘iops2000以下，avgqu-sz不超过3，%util最高70%，看来瓶颈不在磁盘IO上面，而在CPU上。sys部分使用率有点高。

于是我果断使用perf top查看，赫然排在前面的2个，是my_ismbchar_utf8mb4和my_charpos_mb。

my_ismbchar_utf8mb4顾名思义，很明显是与字符集相关的；my_charpos_mb暂时不清楚。

经验告诉我，这很不正常！通常来说，消耗CPU最多的应该是数据页相关的操作才对啊。

我快速打开mysql internal文档搜索，没找到有价值的信息。

哦，你想要知道这个故事的前情提要？抱歉，我刚刚只说了压测，按照国际惯例，我这就贴出环境和版本信息：

硬件：8核16GB，200GB SSD，腾讯云虚拟机
操作系统版本：Centos release 6.9 (Final)
Mysql版本：5.7.28-log MySQL CommUnity Server (GPL)，二进制方式安装
MySQL参数：innodb_buffer_pool_size = 10752M
          innodb_flush_log_at_trx_commit = 1
          sync_binlog = 1
          character-set-server = utf8mb4
sysbench版本：1.0.19
sysbench参数：sysbench /usr/share/sysbench/oltp_read_write.lua   --tables=3 --table-size=1000000  --mysql-passWord=*** --mysql-user=root --mysql-Socket=/usr/local/mysql5.7.28/mysql.sock --threads=128 --time=1800 run

server的字符集是utf8mb4，接下来检查一下db和表的字符集吧：

嗯嗯，看起来一切都是那么的正常……

server, DB, table的字符集都一致，现在只剩下sysbench的嫌疑最大！

可是，要怎么检查sysbench已经连接到MySQL的那些会话的字符集设置呢？

我的sysbench命令没有显式地指定字符集；show processlist没有character_set_client信息，infORMation_schema库和mysql库里面也没有与character_set_client信息。

sysbench --help 也没有字符集相关的选项和参数；https://GitHub.com/akopytov/sysbench/blob/master/src/drivers/mysql/drv_mysql.c sysbench源码中也没有字符集相关的设置。

看来，sysbench连接MySQL的字符集设置，应该默认是latin1，应该是这里的字符集设置不一致导致的。

BUT，对于技术问题，我不能光靠猜测啊！我一定要刨根问底，查它个水落石出……

源码：

吃CPU最多的是my_ismbchar_utf8mb4函数对吧？那就先到源码中搜它：

在strings/ctype-utf8.c 中定义的：

static uint
my_ismbchar_utf8mb4(const CHARSET_INFO *cs, const char *b, const char *e)
{
  int res= my_valid_mbcharlen_utf8mb4(cs, (const uchar*)b, (const uchar*)e);
  return (res > 1) ? res : 0;
}

它本身没有复杂的逻辑，只是调用了my_valid_mbcharlen_utf8mb4，然后对返回值res 进行判断，如果>1，就返回res，否则返回0。

行，那我再看看my_valid_mbcharlen_utf8mb4吧，

static int
my_valid_mbcharlen_utf8mb4(const CHARSET_INFO *cs __attribute__((unused)),
                           const uchar *s, const uchar *e)
{
  uchar c;

  if (s >= e)
    return MY_CS_TOOSMALL;

  c= s[0];
  if (c < 0xf0)
    return my_valid_mbcharlen_utf8mb3(s, e);

  if (c < 0xf5)
  {
    if (s + 4 > e) 
      return MY_CS_TOOSMALL4;

    

    if (!(IS_CONTINUATION_BYTE(s[1]) &&
          IS_CONTINUATION_BYTE(s[2]) &&
          IS_CONTINUATION_BYTE(s[3]) &&
          (c >= 0xf1 || s[1] >= 0x90) &&
          (c <= 0xf3 || s[1] <= 0x8F)))
      return MY_CS_ILSEQ;

    return 4;
  }

  return MY_CS_ILSEQ;
}

这个函数对输入的字符进行比对，判断是utf8mb3还是utf8mb4。utf8mb3？以前没听说过啊！上知乎一搜，原来还有这么一段有趣的历史 ☜

不过，仅仅看这个函数的代码，是不会相信它居然会吃掉7%以上的CPU的。我也不信！

好吧，先做个perf record看看：

#第1步，查看mysqld进程的pid
ps -ef | grep mysqld 

#第2步，将mysqld进程相关的cpu-clock事件及调用堆栈记录起来，默认保存在perf.data文件中
perf record -e cpu-clock -g  -p 14345 

#第3步，用perf script工具对perf.data进行解析
perf script -i perf.data &> perf.unfold  

#第4步，下载一个集漂亮、强大于一身的工具：
git clone Https://github.com/brendangregg/FlameGraph.git


#第5步：将perf.unfold中的符号进行折叠
./FlameGraph/stackcollapse-perf.pl perf.unfold  &> perf.folded

#第6步，生成火焰图
./FlameGraph/flamegraph.pl perf.folded > perf.svg

效果就是这样的↓ 可以看出，my_ismbchar_utf8mb4占比确实最高，达到了7.47%

去跟踪调用堆栈，可以发现是在sqlsql_lex.cc中的get_text()函数中，调用了宏use_mb和my_ismbchar来检查字符集。

这2个宏同样都是调用ismbchar() - detects whether the given string is a multi-byte sequence。 utf8mb4中的mb，全称就是multi-byte

static char *get_text(Lex_input_stream *lip, int pre_skip, int post_skip)
{
  uchar c,sep;
  uint found_escape=0;
  const CHARSET_INFO *cs= lip->m_thd->charset();

  lip->tok_bitmap= 0;
  sep= lip->yyGetLast();                        // String should end with this
  while (! lip->eof())
  {
    c= lip->yyGet();
    lip->tok_bitmap|= c;
    {
      int l;
      if (use_mb(cs) &&
          (l = my_ismbchar(cs,
                           lip->get_ptr() -1,
                           lip->get_end_of_query()))) {
        lip->skip_binary(l-1);
        continue;
      }
    }
    if (c == "\" &&
        !(lip->m_thd->variables.sql_mode & MODE_NO_BACKSLASH_ESCAPES))
    {                    // Escaped character
      found_escape=1;
      if (lip->eof())
    return 0;
      lip->yySkip();
    }
// 省略若干行……
  }
  return 0;                    // unexpected end of query
}

解决方法：

上面说了一大通，可能有点云里雾里，抱歉哈，我能力有限，不能把它解释得更通俗一些。

简而言之，就是证明了确实是字符集不一致，导致MySQL在语法解析的时候，对每一个用户输入的字符（MySQL关键字除外），都要进行若干次字符集检查，所以才会发生my_ismbchar_utf8mb4吃掉很多CPU资源这样一个故事。

要解决就很简单啦：保持character_set_server && database characterset && table characterset && Client characterset一致！

我就是因为忽略了sysbench的字符集设置，所以才把自己给坑了。

既然sysbench没有提供字符集相关的选项和参数，那我就把MySQL的字符集统一成latin1来测吧（也可以去修改sysbench的mysql driver源码，让它支持设置字符集，但是我不擅长C……）

最后总结：

调整字符集之前，QPS最高只能压到73797，统一字符集之后，QPS达到了98272。 73797/98272*100%=75.09%

再来看看TPS，调整字符集之前，TPS最高只能压到3689，统一字符集之后，TPS达到了3689。 73797/4913*100%=75.08%

多么痛的领悟……

您可能感兴趣的文档:

--结束END--

本文标题: MySQL字符集不一致导致性能下降25%，你敢信？

本文链接: https://lsjlt.com/news/4967.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

MySQL字符集不一致导致性能下降25%，你敢信？

故事是这样的：我在对MySQL进行性能测试时，发现CPU使用率接近100%，其中80%us, 16%sys,3%wa，iostat发现磁盘iops2000以下，avgqu-sz不超过3，%util最高70%，看来瓶颈不在磁盘IO...

99+

2015-01-13

MySQL字符集不一致导致性能下降25%，你敢信？
Mysql 字符集不一致导致连表异常的解决

目录1. 解决方法 2. mysql字符集字符集校验规则做一个简单的如下的连表查询，居然直接提示错误，居然是字符集不一致的问题，本文记录一下mysql的字符集类型，以及下面这个...

99+

2024-04-02
MySQL字符集一致性问题怎么解决

在 MySQL 中解决字符集一致性问题的方法有以下几种：设置数据库、表和列的字符集为统一的值：在创建数据库、表和列时，可以通过...

99+

2024-04-02
MySQL中因字段字符集不同导致索引不能命中的解决方法

什么是索引？为什么要建立索引？索引用于快速找出在某个列中有一特定值的行，不使用索引，MySQL必须从第一条记录开始读完整个表，直到找出相关的行，表越大，查询数据所花费的时间就越多，如果表中查询的列有一个索...

99+

2024-04-02
MySQL字符集与应用程序编码一致性问题怎么解决

MySQL 的字符集设置与应用程序编码一致性问题可以通过以下几种方式来解决：使用统一的字符集设置：在创建数据库和表的时候，可以...

99+

2024-04-09

mysql

软考高级职称资格查询

热门wiki

mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

近期文章

Python连接和操作PostgreSQL数据库的流程步骤

关于SQL建表语句使用详解

RedisTemplate的使用与注意事项小结

使用MySQL从JSON字符串提取数据的方法详解

MySQL免密登录的几种配置方式小结

Oracle更换监听端口的流程步骤

Linux的HBASE数据库集群部署方法

MySQL与HBase在数据湖架构中的互补与融合

HBase的Region Server资源分配与调度策略

MySQL的查询优化器与HBase的查询优化策略在大数据查询中的协同

推荐阅读

关于SQL建表语句使用详解

2024-10-23

HBase在大数据审计与合规性追踪中的应用

2024-10-22

MySQL与HBase在大数据金融分析中的性能与可扩展性对比

2024-10-22

HBase的Region Server之间的网络通信优化

2024-10-22

HBase在大数据监控与告警系统中的实时数据处理能力

2024-10-22

MySQL与HBase在大数据安全策略中的实现与对比

2024-10-22

HBase的分布式事务处理在复杂业务场景中的应用

2024-10-22

MySQL与HBase在混合存储架构中的整合策略

2024-10-22

HBase如何支持高效的二级索引查询

2024-10-22

MySQL与HBase在物联网数据收集与处理中的协作模式

2024-10-22

热门问答

1

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

1

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

1

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

1

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

1

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

1

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

1

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

1

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

1

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

1

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

编程网，编程工程师的家园，是目前国内优秀的开源技术社区之一，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。

官方手机版
微信公众号
商务合作

Powered by 编程网 | Copyright © 2018-2023, 版权所有. | 网站地图 | 苏ICP备17033115号