返回顶部
首页 > 资讯 > 精选 >Spark Streaming反压机制是怎么样的
  • 511
分享到

Spark Streaming反压机制是怎么样的

2023-06-19 13:06:57 511人浏览 八月长安
摘要

本篇文章为大家展示了spark Streaming反压机制是怎么样的,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。背景在默认情况下,Spark Streaming 通过 receivers (或者是

本篇文章为大家展示了spark Streaming反压机制是怎么样的,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

背景

在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时间长;越来越多的数据被接收,但是数据的处理速度没有跟上,导致系统开始出现数据堆积,可能进一步导致 Executor 端出现 OOM 问题而出现失败的情况。

而在 Spark 1.5 版本之前,为了解决这个问题,对于 Receiver-based 数据接收器,我们可以通过配置 spark.streaming.receiver.maxRate 参数来限制每个 receiver 每秒最大可以接收的记录的数据;对于 Direct Approach 的数据接收,我们可以通过配置 spark.streaming.kafka.maxRatePerPartition 参数来限制每次作业中每个 Kafka 分区最多读取的记录条数。这种方法虽然可以通过限制接收速率,来适配当前的处理能力,但这种方式存在以下几个问题:

  • 我们需要事先估计好集群的处理速度以及消息数据的产生速度;

  • 这两种方式需要人工参与,修改完相关参数之后,我们需要手动重启 Spark Streaming 应用程序;

  • 如果当前集群的处理能力高于我们配置的 maxRate,而且 producer 产生的数据高于 maxRate,这会导致集群资源利用率低下,而且也会导致数据不能够及时处理。

Spark Streaming反压机制是怎么样的

反压机制


那么有没有可能不需要人工干预,Spark Streaming 系统自动处理这些问题呢?当然有了!Spark 1.5 引入了反压(Back Pressure)机制,其通过动态收集系统的一些数据来自动地适配集群数据处理能力。详细的记录请参见 SPARK-7398 里面的说明。

Spark Streaming 1.5 以前的体系结构

在 Spark 1.5 版本之前,Spark Streaming 的体系结构如下所示:

Spark Streaming反压机制是怎么样的

  • 数据是源源不断的通过 receiver 接收,当数据被接收后,其将这些数据存储在 Block Manager 中;为了不丢失数据,其还将数据备份到其他的 Block Manager 中;

  • Receiver Tracker 收到被存储的 Block IDs,然后其内部会维护一个时间到这些 block IDs 的关系;

  • Job Generator 会每隔 batchInterval 的时间收到一个事件,其会生成一个 JobSet;

  • Job Scheduler 运行上面生成的 JobSet。

Spark Streaming 1.5 之后的体系结构

Spark Streaming反压机制是怎么样的

  • 为了实现自动调节数据的传输速率,在原有的架构上新增了一个名为 RateController 的组件,这个组件继承自 StreamingListener,其监听所有作业的 onBatchCompleted 事件,并且基于 processingDelayschedulingDelay 、当前 Batch 处理的记录条数以及处理完成事件来估算出一个速率;这个速率主要用于更新流每秒能够处理的最大记录的条数。速率估算器(RateEstimator)可以又多种实现,不过目前的 Spark 2.2 只实现了基于 PID 的速率估算器。

  • InputDStreams 内部的 RateController 里面会存下计算好的最大速率,这个速率会在处理完 onBatchCompleted 事件之后将计算好的速率推送到 ReceiverSupervisorImpl,这样接收器就知道下一步应该接收多少数据了。

  • 如果用户配置了 spark.streaming.receiver.maxRate 或 spark.streaming.kafka.maxRatePerPartition,那么最后到底接收多少数据取决于三者的最小值。也就是说每个接收器或者每个 Kafka 分区每秒处理的数据不会超过 spark.streaming.receiver.maxRate 或 spark.streaming.kafka.maxRatePerPartition 的值。

详细的过程如下图所示:

Spark Streaming反压机制是怎么样的

Spark Streaming 反压机制的使用

在 Spark 启用反压机制很简单,只需要将 spark.streaming.backpressure.enabled 设置为 true 即可,这个参数的默认值为 false。反压机制还涉及以下几个参数,包括文档中没有列出来的:

  • spark.streaming.backpressure.initialRate: 启用反压机制时每个接收器接收第一批数据的初始最大速率。默认值没有设置。

  • spark.streaming.backpressure.rateEstimator:速率估算器类,默认值为 pid ,目前 Spark 只支持这个,大家可以根据自己的需要实现。

  • spark.streaming.backpressure.pid.proportional:用于响应错误的权重(最后批次和当前批次之间的更改)。默认值为1,只能设置成非负值。weight for response to "error" (change between last batch and this batch)

  • spark.streaming.backpressure.pid.integral:错误积累的响应权重,具有抑制作用(有效阻尼)。默认值为 0.2 ,只能设置成非负值。weight for the response to the accumulation of error. This has a dampening effect.

  • spark.streaming.backpressure.pid.derived:对错误趋势的响应权重。 这可能会引起 batch size 的波动,可以帮助快速增加/减少容量。默认值为0,只能设置成非负值。weight for the response to the trend in error. This can cause arbitrary/noise-induced fluctuations in batch size, but can also help React quickly to increased/reduced capacity.

  • spark.streaming.backpressure.pid.minRate:可以估算的最低费率是多少。默认值为 100,只能设置成非负值。

上述内容就是Spark Streaming反压机制是怎么样的,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注编程网精选频道。

--结束END--

本文标题: Spark Streaming反压机制是怎么样的

本文链接: https://lsjlt.com/news/296148.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Spark Streaming反压机制是怎么样的
    本篇文章为大家展示了Spark Streaming反压机制是怎么样的,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。背景在默认情况下,Spark Streaming 通过 receivers (或者是...
    99+
    2023-06-19
  • Spark Structured Streaming的特性是什么
    本篇文章为大家展示了Spark Structured Streaming的特性是什么,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。下面介绍了Structured Streaming的基本概念,及其在...
    99+
    2023-06-19
  • python的反射机制是怎样的
    python的反射机制是怎样的,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。反射反射机制就是在运行时,动态的确定对象的类型,并可以通过字符串调用对象属性、方法、导入模块,是...
    99+
    2023-06-02
  • reflect Java的反射机制是怎样的
    reflect Java的反射机制是怎样的,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。一、类型识别的两种方式:首先了解一下“运行时类型识别”(Run-time Type Id...
    99+
    2023-06-17
  • spark-streaming-kafka怎样通过KafkaUtils.createDirectStream的方式处理数据
    spark-streaming-kafka怎样通过KafkaUtils.createDirectStream的方式处理数据,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。pack...
    99+
    2023-06-02
  • 什么是Spark中的容错机制
    Spark中的容错机制是指在任务执行过程中出现错误或数据丢失时,系统能够自动恢复并继续执行,保证任务的正确完成。Spark中的容错机...
    99+
    2024-03-05
    Spark
  • 周期性清除Spark Streaming流状态的方法是什么
    本篇文章为大家展示了周期性清除Spark Streaming流状态的方法是什么,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。在Spark Streaming程序中,我们经常需要使用有状态的流来统计一...
    99+
    2023-06-19
  • mysql update的机制是怎么样的
    本篇文章为大家展示了mysql update的机制是怎么样的,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。 可以看到,一个Update操...
    99+
    2024-04-02
  • C#的反射机制是什么
    本篇内容介绍了“C#的反射机制是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!属性定制是.NET提供的一个非常棒的新特性之一,属性对于所...
    99+
    2023-06-17
  • PHP的反射机制是什么
    本篇内容主要讲解“PHP的反射机制是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“PHP的反射机制是什么”吧!简介就算是类成员定义为private也可以在外部访问,不用创建类的实例也可以访问...
    99+
    2023-06-20
  • JavaScript运行机制是怎么样的
    这篇文章主要介绍了JavaScript运行机制是怎么样的,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。JS的运行机制1. js单线程Java...
    99+
    2024-04-02
  • ORACLE 锁机制是怎样的
    这期内容当中小编将会给大家带来有关ORACLE 锁机制是怎样的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。 http://blog.csdn...
    99+
    2024-04-02
  • 什么是java反射机制
    java:“一切即对象”,感觉java语言本身在不断践行着这句话。java反射机制的基础来源于一个Class类,我们可以通过这个类里面的方法来对每一个类进行读取、实例化等。对象表示或封装一些数据。一个类被加载后,jvm会创建一个对应该类的C...
    99+
    2019-08-24
    java入门 java 反射机制
  • java反射机制是什么
    这篇文章主要介绍了java反射机制是什么,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Java的特点有哪些Java的特点有哪些1.Java语言作为静态面向对象编程语言的代表,...
    99+
    2023-06-14
  • Spark中的任务重试机制是指什么
    在Spark中,任务重试机制是指当某个任务由于某种原因(例如节点故障、资源不足、网络问题等)失败时,Spark会自动尝试重新执行该任...
    99+
    2024-03-05
    Spark
  • Spark工作流程是怎样的呢
    本篇文章给大家分享的是有关Spark工作流程是怎样的呢,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。一、Spark架构组成图:GlossaryThe following tab...
    99+
    2023-06-02
  • MySQL安全机制是怎样的
    MySQL安全机制是怎样的,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。 通过为MySQL用户赋予适当的权限来提高数据的安全性。 M...
    99+
    2024-04-02
  • Kafka的数据复制机制是怎样的
    Kafka的数据复制机制是基于分布式发布/订阅的模式来实现的。Kafka集群中的每个主题都可以配置多个副本,每个副本都保存着完整的主...
    99+
    2024-03-11
    Kafka
  • 计算机缓存机制是怎样的
    本篇内容介绍了“计算机缓存机制是怎样的”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!下图为计算机处理程序的...
    99+
    2024-04-02
  • TalkingData的Spark On Kubernetes实践是怎样的
    这篇文章给大家介绍TalkingData的Spark On Kubernetes实践是怎样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。众所周知,Spark是一个快速、通用的大规模数据处理平台,和Hadoop的Map...
    99+
    2023-06-19
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作