首页 > 资讯 > 服务器 >Flink实践Savepoint使用示例详解

364

分享到

Flink实践Savepoint使用示例详解

2024-04-02 19:04:59 364人浏览八月长安

摘要

目录一、背景Snapshot 状态快照分布式快照Checkpoint & Savepoint二、flink on yarn 如何使用 savepoint附录：一致性语义确保精

一、背景

什么是 savepoint，为什么要使用 savepoint ？

保障 flink 作业在配置迭代、flink 版本升级、蓝绿部署中的数据一致性，提高容错、降低恢复时间；

在此之前引入几个概念：

Snapshot 状态快照

Flink 通过状态快照实现容错处理

Flink 中的状态： keyed state, operator state ..
Flink 中的状态后端：A. 状态数据如何存？B. 运行时存在哪里？C. 状态快照保存在哪？

注1：自 1.13 版本之后，设置 Working State 和设置 Snapshot State 拆离成了两个接口，便于读者更易于理解；

StateBackend

CheckpointStorage

注2：一般默认使用 FsStateBackend，运行时状态放在堆中保障性能，快照备份时数据存于 hdfs 保障容错性；当业务有大状态的 flink 作业存在时，可以通过配置化的方式将用户作业的状态后端设置为 RocksDBSateBackend。

分布式快照

Checkpoint – a snapshot taken automatically by Flink for the purpose of being able to recover from faults. Checkpoints can be incremental, and are optimized for being restored quickly.

Alignment checkpoint

Unaligment checkpoint

未对齐的 checkpoint 确保障碍物尽快到达接收器。

适用于至少有一条缓慢移动的数据路径的应用程序，避免对齐时间过长。然而，
会增加了额外的输入/输出压力，会造成 checkpoint size 的增加，当状态后后端 io 有瓶颈时，不合适；

注：一般默认使用 Alignment checkpoint；当出现被压时，一般优先采用

1. 优化逻辑 2. 增加并发能力的方式进行处理；

Checkpoint & Savepoint

Checkpoint 使 Flink 的状态具有良好的容错性，通过 checkpoint 机制，Flink 可以对作业的状态和计算位置进行恢复。

Savepoint 是依据 Flink checkpointing 机制所创建的流作业执行状态的一致镜像；

Checkpoint 的主要目的是为意外失败的作业提供恢复机制(如 tm/jm 进程挂了)。
Checkpoint 的生命周期由 Flink 管理，即 Flink 创建，管理和删除 Checkpoint - 无需用户交互。
Savepoint 由用户创建，拥有和删除。他们的用例是计划的，手动备份和恢复。
Savepoint 应用场景，升级 Flink 版本，调整用户逻辑，改变并行度，以及进行红蓝部署等。 Savepoint 更多地关注可移植性和对前面提到的作业更改的支持。

除去这些概念上的差异，Checkpoint 和 Savepoint 的当前实现基本上使用相同的代码并生成相同的格式（rocksDB 增量 checkpoint 除外，未来可能有更多类似的实现）

二、Flink on yarn 如何使用 savepoint

触发 savepoint 保留到 hdfs, 在重新调度作业时，提供给用户选择即可。

关键点：执行 savepoint 需要指定 jobId，因此在设计数据平台的元数据时，需要保留 jobId 数据。

使用 YARN 触发 Savepoint #
$ bin/flink savepoint :jobId [:targetDirectory] -yid :yarnAppId
这将触发 ID 为 :jobId 和 YARN 应用程序 ID :yarnAppId 的作业的 Savepoint，并返回创建的 Savepoint 的路径。
使用 Savepoint 取消作业 #
$ bin/flink cancel -s [:targetDirectory] :jobId
这将自动触发 ID 为 :jobid 的作业的 Savepoint，并取消该作业。此外，你可以指定一个目标文件系统目录来存储 Savepoint 。该目录需要能被 JobManager(s) 和 TaskManager(s) 访问。
从 Savepoint 恢复 #
$ bin/flink run -s :savepointPath [:runArgs]
这将提交作业并指定要从中恢复的 Savepoint 。 你可以给出 Savepoint 目录或 _metadata 文件的路径。
跳过无法映射的状态恢复 #
默认情况下，resume 操作将尝试将 Savepoint 的所有状态映射回你要还原的程序。 如果删除了运算符，则可以通过 --allowNonRestoredState（short：-n）选项跳过无法映射到新程序的状态：
$ bin/flink run -s :savepointPath -n [:runArgs]
删除 Savepoint #
$ bin/flink savepoint -d :savepointPath
这将删除存储在 :savepointPath 中的 Savepoint。

附录：一致性语义

确保精确一次（exactly once）

当流处理应用程序发生错误的时候，结果可能会产生丢失或者重复。Flink 根据你为应用程序和集群的配置，可以产生以下结果：

Flink 不会从快照中进行恢复（at most once）
没有任何丢失，但是你可能会得到重复冗余的结果（at least once）
没有丢失或冗余重复（exactly once）

Flink 通过回退和重新发送 source 数据流从故障中恢复，当理想情况被描述为精确一次时，这并不意味着每个事件都将被精确一次处理。相反，这意味着每一个事件都会影响 Flink 管理的状态精确一次。

Barrier 只有在需要提供精确一次的语义保证时需要进行对齐（Barrier alignment）。如果不需要这种语义，可以通过配置 CheckpointingMode.AT_LEAST_ONCE 关闭 Barrier 对齐来提高性能。

端到端精确一次

为了实现端到端的精确一次，以便 sources 中的每个事件都仅精确一次对 sinks 生效，必须满足以下条件：

sources 必须是可重放的，并且
sinks 必须是事务性的（或幂等的）

以上就是Flink实践Savepoint使用示例详解的详细内容，更多关于Flink Savepoint使用的资料请关注编程网其它相关文章！

--结束END--

本文标题: Flink实践Savepoint使用示例详解

本文链接: https://lsjlt.com/news/165373.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Flink实践Savepoint使用示例详解

目录

一、背景

Snapshot 状态快照

分布式快照

Checkpoint & Savepoint

二、Flink on yarn 如何使用 savepoint

附录：一致性语义

确保精确一次（exactly once）

端到端精确一次

Flink实践Savepoint使用示例详解

Ansible Galaxy命令的使用实践示例详解

基于SpringBoot 使用 Flink 收发Kafka消息的示例详解

TDesign在vitest的实践示例详解

ReactQuery系列React Query 实践示例详解

ts封装axios最佳实践示例详解

业务系统的Prometheus实践示例详解

Gradle依赖切换源码实践示例详解

react后台系统最佳实践示例详解

requestAnimationFrame使用示例详解

Collectionstream使用示例详解

springboot bootcdn使用示例详解

ResizeObserver API使用示例详解

Java InheritableThreadLocal使用示例详解

react使用useImperativeHandle示例详解

VUE mixin 使用示例详解

TreeSet详解和使用示例

TensorFlow.js实现AI换脸使用示例详解

Vue冷门技巧递归组件实践示例详解

Android SlidingMenu使用和示例详解

Ubuntu Spark集群的容器日志管理

Ubuntu Spark集群的容器安全加固

Ubuntu Spark集群的自动化测试方案

Ubuntu Spark集群的容器持久化存储方案

Ubuntu Spark集群的分布式缓存应用

Ubuntu Spark集群的监控告警联动

Ubuntu Spark集群的容器间通信优化

Spark在Ubuntu上的内存管理优化

Ubuntu Spark集群的存储性能评估

Spark作业在Ubuntu上的数据倾斜处理