首页 > 资讯 > 精选 >Captial One如何实现Artifactory HA集群的自动化维护

498

分享到

Captial One如何实现Artifactory HA集群的自动化维护

2023-06-04 12:06:23 498人浏览八月长安

摘要

一、背景本文整理自Hank Hudgins，Capital One高级工程师，在JFrog 2019用户大会上的讲演《Automated Artifactory HA Pipeline》。Capital One是美国最大的数字化银行之一，其

一、背景

本文整理自Hank Hudgins，Capital One高级工程师，在JFrog 2019用户大会上的讲演《Automated Artifactory HA Pipeline》。

Captial One如何实现Artifactory HA集群的自动化维护

Capital One是美国最大的数字化银行之一，其IT管理方法和应用技术也极为敏捷，全球拥有上万研发，具备非常丰富的 devops落地经验。在Capital One的DevOps体系当中，有很多类似于JFrog Aritfactory的HA（高可用）应用服务集群。众所周知，HA集群的运维，如升级、扩容、打补丁等工作，要想在保持用户服务不中断，服务水平不降级的前提下完成，尤其是在像Capital One这么大规模的DevOps系统当中，是十分困难、复杂，和高风险的。

Captial One如何实现Artifactory HA集群的自动化维护

Captital One使用的Artifactory为其DevOps体系中的制品及依赖管理提供了企业级解决方案，拥有工作（primary）和容灾（HR）两类HA集群。Hank所在的Artifactory维护团队，针对Artifactory HA集群维护的难点，通过建设和运行自动化的流水线，在不影响用户使用和服务水平的前提下，自动、高效、保质地完成了诸如版本升级、配置更新、补丁加载等工作，并且在检测到问题时，还能够实现自动化的回滚。在本次讲演中，Hank就介绍了这套自动化流水线的组成与特色。

二、自动化流水线概述

Capital One采用这套可靠的自动化流水线，在Artifactory HA集群的维护工作中获得了良好的收益：

Captial One如何实现Artifactory HA集群的自动化维护

首先是通过自动化加速了维护进程，使得开发人员能够集中精力进行研发，而不需要考虑重复性的部署和测试任务；其次，流水线的可复用性也为维护工作提供了便捷的可扩展性，通过修改相关配置，流水线就能在新的环境中进行部署；最后，流水线还提供了可以快速检测缺陷，并实现无缝、高效回滚的部署过程。

该自动化流水线是按下述方式组成的：

Captial One如何实现Artifactory HA集群的自动化维护

首先是利用jenkins驱动整个流水线，并集成GitHub进行触发：

· 每个Pull Request会触发小规模的测试以得到快速反馈。这些测试不是HA集群范围的，但可以得到快速验证；

· 每个Merge会触发研发环境HA集群范围的部署，并进行相关测试；

· 标签（Tag）被用来标记代码更新的验证阶段和对应的环境。

其次，利用TerrafORM创建基础设施，实现了“类”蓝/绿的发布。

最后，利用Chef cookbook实现针对各种应用服务的操作和配置更新。除了Artifactory，这些应用服务还包括了相关用于反向代理的Nginx、监控的Datadog，以及日志收集的Splunk。

三、自动化流水线组成

接下来，Hank逐一介绍了这套自动化流水线各个阶段的任务及实现方式。

Captial One如何实现Artifactory HA集群的自动化维护

首先是代码的静态分析，针对Pull Request和Merge运行。分析的目的是对代码结构进行快速验证和反馈，确保其符合业界标准。流水线集成了一系列的Linter来实现针对不同类型代码的静态分析。

Captial One如何实现Artifactory HA集群的自动化维护

接下来是安全测试，这在流水线当中体现了“左移”的原则，能够在真正部署之前尽早的检测和发现潜在的安全漏洞。目前的安全测试分两类，一类是静态安全测试，即通过分析代码结构来发现如sql注入、Cross-site脚本等安全隐患；另一类是JFrog Xray提供的依赖测试，检测三方依赖包中是否包含已知安全漏洞，并推荐对应的修复版本。

Captial One如何实现Artifactory HA集群的自动化维护

下一步是单元/集成测试，用于验证代码的更新不会破坏预期的功能。这一步测试也可以应用于Artifactory的Custom user plugin的测试。流水线通过启动包含Artifactory的容器，安装并测试这些custom plugin，确保其正确工作，而不需要连接到真正的Artifactory HA集群。

Captial One如何实现Artifactory HA集群的自动化维护

在完成了上述初步的测试之后，自动化流水线进入发布过程。首先要把部署相关的文件暂存到可靠的位置，这样在集群自动缩放的过程中不会依赖到其他系统，也包括Artifactory自身。目前，部署的相关文件，包括二进制包和Chef cookbook，都从Artifactory下载并缓存到S3存储上。

Captial One如何实现Artifactory HA集群的自动化维护

自动化流水线的部署阶段实现了“类”蓝/绿的部署过程，能够保证新集群的部署不会影响到Artifactory的正常服务：

把用户流量切换到容灾集群；

缩容现有工作集群，仅保留几个节点（保持和容灾集群的数据同步），不包括primary节点（由于Artifactory HA集群实现了多活的架构，每个节点都是支持读/写的，所以缩容primary节点并不会影响正常服务）。

基于同样的数据库和S3存储，部署新的工作集群，包括新的primary节点。

当新的工作集群通过测试后，再把用户流量切换回新的工作集群。

之后再对容灾集群进行升级部署。

在上述部署过程中，两个Artifactory集群之间始终保持着数据同步，所以从用户的角度来看，部署是无缝切换的。

Captial One如何实现Artifactory HA集群的自动化维护

部署完成之后，要立即对集群中的各个应用服务进行检测。Jenkins通过ssh通道访问新的服务，并运行测试，确保Artifactory、Nginx等应用服务运行正常，相关配置文件的内容、位置、权限都部署正确，以及所有的网络端口都正常开通。如果检测失败，将会启动回滚过程。

Captial One如何实现Artifactory HA集群的自动化维护

接下来要运行系列的测试，确保Artifactory的各个repository都工作正常，包括能够正确拉取Docker镜像。同时，也要检测新的系统配置是否会影响制品依赖的解析，以及对不同虚拟repository的制品上传。

Captial One如何实现Artifactory HA集群的自动化维护

最后，还要进行性能测试，确保部署后集群性能没有下降。目前是利用jmeter来模拟产品级流量，尽可能的匹配峰值流量时的API调用频率。常规15分钟的负载测试作为流水线的一部分，而可选的1小时负载测试，只有大的变更时才会执行。

性能测试的难点在于流量的建模，这是因为Artifactory的全语言特性带来的复杂性，支持多种数据包类型，及对接相应的包管理系统。通过分析Artifactory日志，获得了用于测试的API调用序列。

Captial One如何实现Artifactory HA集群的自动化维护

最后，是自动化流水线当中的回滚机制。目前实现了两种回滚：

· In-region回滚。当部署后的测试失败时，马上启动自动化回滚，删除新的集群，并恢复旧的集群。

· DR容错回滚。当工作集群升级成功后，或监测几天用户流量，没有问题的时候再更新容灾集群。如果在这几天中发现问题，就会启动容错回滚：先把用户流量切换到DR集群，然后把工作集群回滚到之前版本，数据库回滚到之前的快照，再通过Artifactory Replication同步数据，最后再把流量切换回回滚后的工作集群。

数据库的回滚是个难题。在大版本的升级过程中，可能会有DB schema的变化，这时自动化的数据库回滚很难实现，目前暂时还是通过手工操作来完成。

四、总结

Capital One通过自动化流水线实现Artifactory HA集群的维护工作，获得了很好的效果和收益，加速了发布过程，提供了良好的可复用性和扩展性，也能够启动有效的回滚机制。

Captial One如何实现Artifactory HA集群的自动化维护

通过自动化流水线的应用也可以看出，即使如Artifactory这样成熟的商业化产品，也需要对基础架构和配置进行全面的测试。

最后，自动化流水线本身也是需要持续的投资和提升的。

--结束END--

本文标题: Captial One如何实现Artifactory HA集群的自动化维护

本文链接: https://lsjlt.com/news/237980.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Captial One如何实现Artifactory HA集群的自动化维护

一、背景

二、自动化流水线概述

三、自动化流水线组成

四、总结

Captial One如何实现Artifactory HA集群的自动化维护

CapitalOne - Artifactory高可用集群的自动化部署实践

python如何实现自动化运维

Python如何实现APP自动化发微信群消息

如何用nginx实现动静分离的负载均衡集群

如何在PHP项目中集成Git API来实现自动化部署？

Python如何实现报表自动化和自动发送到目的邮箱

如何实现MySQL底层优化：索引的高级最佳实践和维护策略

PostgreSQL中的自动化任务和调度如何实现

MySQL到DB2: 如何实现数据迁移和转化的自动化？

如何使用 Python 和 JavaScript 实现 Windows 同步的自动化？

mysql中如何实现自动化脚本安装的shell脚本

如何使用MongoDB实现数据的自动化测试功能

微服务架构中如何实现服务的自动化部署？

Spring 中如何实现 ASP 重定向关键字的自动化管理？

Java和Shell编程算法：如何实现HTTP请求的自动化测试？

C#如何实现文件筛选读取并翻译的自动化工具

ASP开发者必读：如何应用自然语言处理技术实现二维码的自动生成？

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南