返回顶部
首页 > 资讯 > 数据库 >如何进行Elasticsearch集群运维
  • 279
分享到

如何进行Elasticsearch集群运维

2024-04-02 19:04:59 279人浏览 薄情痞子
摘要

本篇文章给大家分享的是有关如何进行elasticsearch集群运维,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。Meltwater每天要处理

本篇文章给大家分享的是有关如何进行elasticsearch集群运维,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

Meltwater每天要处理数百万量级的帖子数据,因此需要一种能处理该量级数据的存储和检索技术。

如何进行Elasticsearch集群运维

从0.11.X 版本开始我们就已经是Elasticsearch的忠实用户了。在经历了一些波折之后,最终我们认为做出了正确的技术选型。

Elasticsearch用于支持我们的主要媒体监控应用,客户通过该应用可以检索和分析媒体数据,比如新闻文章、(公开的)Facebook帖子、Instagram帖子、博客和微博。我们通过使用一个混合api来收集这些内容,并爬取和稍作加工,使得它们可被Elasticsearch检索到。

小编将分享我们所学到的经验、如何调优Elasticsearch,以及要绕过的一些陷阱。

数据量


每天都有数量相当庞大的新闻和微博产生;在高峰期需要索引大约300多万社论文章,和近1亿条社交帖子数据。其中社论数据长期保存以供检索(可回溯到2009年),社交帖子数据保存近15个月的。当前的主分片数据使用了大约200 TB的磁盘空间,副本数据大约600 TB。

我们的业务每分钟有3千次请求。所有的请求通过一个叫做“search-service”的服务,该服务会依次完成所有与Elasticsearch集群的交互。大部分检索规则比较复杂,包括在面板和新闻流中。比如,一个客户可能对Tesla和Elon Musk感兴趣,但希望排除所有关于SpaceX或PayPal的信息。用户可以使用一种与Lucene查询语法类似的灵活语法,如下:

Tesla AND "Elon Musk" NOT (SpaceX OR PayPal)

我们最长的此类查询有60多页。重点是:除了每分钟3千次请求以外,没有一个查询是像在Google里查询“Barack Obama”这么简单的;这简直就是可怕的野兽,但ES节点必须努力找出一个匹配的文档集。

如何进行Elasticsearch集群运维

版本


我们运行的是一个基于Elasticsearch 1.7.6的定制版本。该版本与1.7.6 主干版本的唯一区别是,我们向后移植(backport)了roaring bitsets/bitmaps(Http://suo.im/5bE6od) 作为缓存。该功能是从Lucene 5移植到Lucene 4的,对应移植到了ES 1.X版本。Elasticsearch 1.X中使用默认的bitset作为缓存,对于稀疏结果来说开销非常大,不过在Elasticsearch 2.X中已经做了优化

为何不使用较新版本的Elasticsearch呢?主要原因是升级困难。在主版本间滚动升级只适用于从ES 5到6(从ES 2到5应该也支持滚动升级,但没有试过)。因此,我们只能通过重启整个集群来升级。宕机对我们来说几乎不可接受,但或许可以应对一次重启所带来的大约30-60分钟宕机时间;而真正令人担心的,是一旦发生故障并没有真正的回滚过程。

截止目前我们选择了不升级集群。当然我们希望可以升级,但目前有更为紧迫的任务。实际上该如何实施升级尚未有定论,很可能选择创建另一个新的集群,而不是升级现有的。

节点配置


我们自2017年6月开始在AWS上运行主集群,使用i3.2xlarge实例作为数据节点。之前我们在COLO(Co-located Data Center)里运行集群,但后续迁移到了AWS云,以便在新机器宕机时能赢得时间,使得我们在扩容和缩容时更加弹性。

我们在不同的可用区运行3个候选master节点,并设置discovery.zen.minimum_master_nodes为2。这是避免脑裂问题split-brain problem(https://qbox.io/blog/split-brain-problem-elasticsearch)非常通用的策略。

我们的数据集在存储方面,要求80%容量和3个以上的副本,这使得我们运行了430个数据节点。起初打算使用不同层级的数据,在较慢的磁盘上存储较旧的数据,但是由于我们只有相关的较低量级旧于15个月的数据(只有编辑数据,因为我们丢弃了旧的社交数据),然而这并未奏效。每个月的硬件开销远大于运行在COLO中,但是云服务支持扩容集群到2倍,而几乎不用花费多少时间。

你可能会问,为何选择自己管理维护ES集群。其实我们考虑过托管方案,但最后还是选择自己安装,理由是:AWS Elasticsearch Service(http://suo.im/4PLuXa)暴露给用户的可控性太差了,Elastic Cloud(https://www.elastic.co/cn/cloud)的成本比直接在EC2上运行集群要高2-3倍。

为了在某个可用区宕机时保护我们自身,节点分散于eu-west-1的所有3个可用区。我们使用AWS plugin(http://suo.im/5qFQEP)来完成该项配置。它提供了一个叫做aws_availability_zone的节点属性,我们把cluster.routing.allocation.awareness.attributes
设置为aws_availability_zone。这保证了ES的副本尽可能地存储在不同的可用区,而查询尽可能被路由到相同可用区的节点。

这些实例运行的是Amazon linux,临时挂载为ext4,有约64GB的内存。我们分配了26GB用于ES节点的堆内存,剩下的用于磁盘缓存。为何是26GB?因为JVM是在一个黑魔法之上构建的(https://www.elastic.co/blog/a-heap-of-trouble)。

我们同时使用TerrafORM(https://www.terraform.io/)自动扩容组来提供实例,并使用Puppet(https://puppet.com/)完成一切安装配置。

索引结构


因为我们的数据和查询都是基于时间序列的,所以使用了
time-based indexing(http://suo.im/547GbE),
类似于elk (elasticsearch, logstash, kibana) stack(https://www.elastic.co/elk-stack)。同时也让不同类型的数据保存在不同的索引库中,以便诸如社论文档和社交文档类数据最终位于不同的每日索引库中。这样可以在需要的时候只丢弃社交索引,并增加一些查询优化。每个日索引运行在两个分片中的一个。

该项设置产生了大量的分片(接近40k)。有了这么多的分片和节点,集群操作有时变得更特殊。比如,删除索引似乎成为集群master的能力瓶颈,它需要把集群状态信息推送给所有节点。我们的集群状态数据约100 MB,但通过tcp压缩可减少到3 MB
(可以通过curl localhost:9200/_cluster/state/_all 查看你自己集群的状态数据)。Master节点仍然需要在每次变更时推送1.3 GB数据(430 节点 x 3 MB 状态大小)。除了这1.3 GB数据外,还有约860 MB必须在可用区(比如 最基本的通过公共互联网)之间传输。这会比较耗时,尤其是在删除数百个索引时。我们希望新版本的Elasticsearch能优化这一点,首先从ES 2.0支持仅发送集群状态的差分数据(http://suo.im/547UyM)这一特性开始。

Performance 性能


如前所述,我们的ES集群为了满足客户的检索需求,需要处理一些非常复杂的查询。

为应对查询负载,过去几年我们在性能方面做了大量的工作。我们必须尝试公平分享ES集群的性能测试,从下列引文就可以看出。

不幸的是,当集群宕机的时候,不到三分之一的查询能成功完成。我们相信测试本身导致了集群宕机。 

—— 摘录自使用真实查询在新ES集群平台上的第一次性能测试

为了控制查询执行过程,我们开发了一个插件,实现了一系列自定义查询类型。通过使用这些查询类型来提供Elasticsearch官方版本不支持的功能和性能优化。比如,我们实现了phrases中的wildcard查询,支持在SpanNear查询中执行;另一个优化是支持“*”代替match-all-query;还有其他一系列特性。

Elasticsearch和Lucene的性能高度依赖于具体的查询和数据,没有银弹。即便如此,仍可给出一些从基础到进阶的参考:

  • 限制你的检索范围,仅涉及相关数据。比如,对于每日索引库,只按相关日期范围检索。对于检索范围中间的索引,避免使用范围查询/过滤器。

  • 使用wildcards时忽略前缀wildcards - 除非你能对term建立倒排索引。双端wildcards难以优化。

  • 关注资源消耗的相关迹象 数据节点的CPU占用持续飙高吗?IQ等待走高吗?看看GC统计。这些可以从profilers工具或者通过JMX代理获得。如果ParNewGC消耗了超过15%的时间,去检查下内存日志。如果有任何的SerialGC停顿,你可能真的遇到问题了。不太了解这些内容?

  • 没关系,这个系列博文很好地介绍了JVM性能(http://suo.im/4AJgps) 。

  • 记住,ES和G1垃圾回收器一起并非最佳(http://suo.im/4WBTA5)。

  • 如果遇到垃圾回收问题,请不要尝试调整GC设置。这一点经常发生,因为默认设置已经很合理了。相反,应该聚焦在减少内存分配上。具体怎么做?参考下文。

  • 如果遇到内存问题,但没有时间解决,可考虑查询Azul Zing。这是一个很贵的产品,但仅仅使用它们的JVM就可以提升2倍的吞吐量。不过最终我们并没有使用它,因为我们无法证明物有所值。

  • 考虑使用缓存,包括Elasticsearch外缓存和Lucene级别的缓存。在Elasticsearch 1.X中可以通过使用filter来控制缓存。之后的版本中看起来更难一些,但貌似可以实现自己用于缓存的查询类型。我们在未来升级到2.X的时候可能会做类似的工作。

  • 查看是否有热点数据(比如某个节点承担了所有的负载)。可以尝试均衡负载,使用分片分配过滤策略shard allocation filtering
    (http://suo.im/4IfruL),或者尝试通过集群重新路由
    cluster rerouting(http://suo.im/5ja7cU)

  • 来自行迁移分片。我们已经使用线性优化自动重新路由,但使用简单的自动化策略也大有帮助。

  • 搭建测试环境(我更喜欢笔记本)可从线上环境加载一部分代表性的数据(建议至少有一个分片)。使用线上的查询回放加压(较难)。使用本地设置来测试请求的资源消耗。
    综合以上各点,在Elasticsearch进程上启用一个profiler。这是本列表中最重要的一条。

  • 我们同时通过Java Mission Control (http://suo.im/4zYEsP)和 VisualVM (http://suo.im/4AJeIM)使用飞行记录器。在性能问题上尝试投机(包括付费顾问/技术支持)的人是在浪费他们(以及你自己)的时间。排查下JVM哪部分消耗了时间和内存,然后探

    索下Elasticsearch/Lucene源代码,检查是哪部分代码在执行或者分配内存。

  • 一旦搞清楚是请求的哪一部分导致了响应变慢,你就可以通过尝试修改请求来优化(比如,修改term聚合的执行提示(http://suo.im/4WBUJx),或者切换查询类型)。修改查询类型或者查询顺序,可以有较大影响。如果不凑效,还可以尝试优化ES/Lucene代码。这看起来太夸张,却可以为我们降低3到4倍的CPU消耗和4到8倍的内存使用。某些修改很细微(比如 indices query (http://suo.im/4WBUR7)),但其他人可能要求我们完全重写查询执行。最终的代码严重依赖于我们的查询模式,所以可能适合也可能不适合他人使用。因此目前为止我们并没有开源这部分代码。不过这可能是下一篇博文的好素材。

如何进行Elasticsearch集群运维

图表说明:响应时间。有/没有 重写Lucene查询执行。同时也表明不再有节点每天多次发生内存不足。

顺便说明下,因为我知道会面临一个问题:从上一次性能测试我们知道通过升级到ES 2.X能小幅提升性能,但是并不能改变什么。话虽如此,但如果你已经从ES 1.X集群迁移到了ES 2.X,我们很乐意听取关于你如何完成迁移的实践经验。

如果读到了这里,说明你对Elasticsearch是真爱啊(或者至少你是真的需要它)。我们很乐意学习你的经验,以及任何可以分享的内容。欢迎在评论区分享你的反馈和问题。

以上就是如何进行Elasticsearch集群运维,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网数据库频道。

您可能感兴趣的文档:

--结束END--

本文标题: 如何进行Elasticsearch集群运维

本文链接: https://lsjlt.com/news/67529.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 如何进行Elasticsearch集群运维
    本篇文章给大家分享的是有关如何进行Elasticsearch集群运维,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。Meltwater每天要处理...
    99+
    2024-04-02
  • 如何进行etcd集群运维实践
    本篇文章为大家展示了如何进行etcd集群运维实践,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。etcd 是 Kubernetes 集群的数据核心,最严重的情况是,当...
    99+
    2024-04-02
  • PB级大规模Elasticsearch集群运维与调优实践
    导语 | 腾讯云Elasticsearch 被广泛应用于日志实时分析、结构化数据分析、全文检索等场景中,本文将以情景植入的方式,向大家介绍与腾讯云客户合作过程中遇到的各种典型问题,以及相应的解决思路与方法,希望与大家一同交流。文章作者...
    99+
    2017-04-02
    PB级大规模Elasticsearch集群运维与调优实践
  • 如何进行swam群集配置
    本篇文章给大家分享的是有关如何进行swam群集配置,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。概述    每一个宿主机(包括物理机与虚拟机)通常...
    99+
    2023-06-19
  • MariaDB如何进行集群部署
    在MariaDB中进行集群部署通常使用Galera Cluster来实现。Galera Cluster是一个同步多主集群解决方案,可...
    99+
    2024-04-09
    MariaDB
  • 如何用SQL进行集合运算
    今天就跟大家聊聊有关如何用SQL进行集合运算 ,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1、比较表和表drop table if ex...
    99+
    2024-04-02
  • 如何进行Zookeeper分析与集群搭建
    本篇文章为大家展示了如何进行Zookeeper分析与集群搭建,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。Zookeeper简介Zookeeper是一个高效的分布式协调服务,可以提供配置信息管理、命...
    99+
    2023-06-02
  • 如何进行HA分布式集群搭建
    今天就跟大家聊聊有关如何进行HA分布式集群搭建,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。一:HA分布式配置的优势:  1,防止由于一台namenode挂掉,集群失败的情形  2,...
    99+
    2023-06-03
  • 如何进行Oracle 运维命令整理
    本篇文章为大家展示了如何进行Oracle 运维命令整理,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。一、oracle建库与删库命令(1)oracle11g建库(一般习惯配置gdbname与sid名一...
    99+
    2023-06-28
  • RHCS集群如何管理和维护
    这篇文章主要介绍了RHCS集群如何管理和维护的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇RHCS集群如何管理和维护文章都会有所收获,下面我们一起来看看吧。RHCS是Redhat Hat Cluster Sui...
    99+
    2023-06-27
  • HBase高可用集群运维举例分析
    本篇内容主要讲解“HBase高可用集群运维举例分析”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“HBase高可用集群运维举例分析”吧!1、控制隔离——rsgroup在94版本中,经常困扰我们的一...
    99+
    2023-06-19
  • 如何进行Elasticsearch调优实践
    今天给大家介绍一下如何进行Elasticsearch调优实践。文章的内容小编觉得不错,现在给大家分享一下,觉得有需要的朋友可以了解一下,希望对大家有所帮助,下面跟着小编的思路一起来阅读吧。背景Elasticsearch(ES)作为NOSQL...
    99+
    2023-06-05
  • 如何进行Redis 6.X Sentinel哨兵集群搭建
    如何进行Redis 6.X Sentinel哨兵集群搭建,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。码哥带大家完成在 CentOS 7 中安装 Redis 6...
    99+
    2023-06-15
  • 怎样进行Kubernetes 集群搭建
    这期内容当中小编将会给大家带来有关怎样进行Kubernetes 集群搭建,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。yum安装需要的组件,我这里指定了具体的版本,我用的版本比较老,不过如果你是第一次用,...
    99+
    2023-06-05
  • 怎么进行Golang集群部署
    本篇内容介绍了“怎么进行Golang集群部署”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!一、集群基础架构1 集群规划在构建Golang集群...
    99+
    2023-07-05
  • 运维python进行(三) 用pytho
      zabbix是一款非常主流监控软件,以简单易用为人称道。zabbix拥有完善的api方便大家通过第三方调用,所以今天介绍一下如何利用python完成对zabbix api调用。   zabbix api主要通过http协议进行通讯,这里...
    99+
    2023-01-31
    运维 python pytho
  • spark集群如何使用hanlp进行分布式分词
    这篇文章主要介绍“spark集群如何使用hanlp进行分布式分词”,在日常操作中,相信很多人在spark集群如何使用hanlp进行分布式分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望...
    99+
    2024-04-02
  • Hadoop集群怎么搭建及如何进行Python操作
    这期内容当中小编将会给大家带来有关Hadoop集群怎么搭建及如何进行Python操作,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。最近项目中在做千亿大数据存储检索需求,要把10T的文本数据进行解析处理存入...
    99+
    2023-06-15
  • 如何进行hp-unix下的高可用集群设置
    今天就跟大家聊聊有关如何进行hp-unix下的高可用集群设置,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。双机备份原理:在2个主机节点上分别安装集群软件(如:HP ServiceGu...
    99+
    2023-06-06
  • 如何进行服务器集群的扩展和缩减
    如何进行服务器集群的扩展和缩减?在当今高度数字化的时代,服务器集群已经成为许多组织和企业实现高性能和高可用性的重要基础设施。然而,随着业务需求的不断变化,如何有效地进行服务器集群的扩展和缩减成为了一个关键问题。本文将向您介绍一些常用的方法...
    99+
    2024-01-23
    服务器扩展和缩减 服务器集群 云服务器知识
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作