返回顶部
首页 > 资讯 > 精选 >Spark集群执行任务失败如何处理
  • 351
分享到

Spark集群执行任务失败如何处理

2023-07-05 06:07:12 351人浏览 薄情痞子
摘要

本篇内容介绍了“spark集群执行任务失败如何处理”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Spark 集群上出现一些任务执行时间过长最

本篇内容介绍了“spark集群执行任务失败如何处理”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

Spark 集群上出现一些任务执行时间过长最后失败,具体表现包括:
  • 大量执行失败的 Task,最终任务也是失败的
    Spark集群执行任务失败如何处理

  • 在 Spark Master 管理界面上看到任务的 Driver 地址不是真实 IP 地址,而是一个叫做“host.containers.internal”的主机名;

  • Spark 的 worker 节点上能观察到在不停的创建 Java 进程,然后进程瞬间就结束了;

  • 进入 worker 节点的日志目录查看日志内容,发现异常信息为连接 “host.containers.internal” 这个地址失败。

所以显然当前出现的问题跟“host.containers.internal”有关系。

背景说明:我们的 Spark 集群是运行在 podman 容器里的,而且是在非 root 用户下运行。

经过在互联网上搜索,发现这个主机名是容器分配给内部进程用来连接容器所在主机自身的。再进一步查看 podman 参考文档,按照里面的说法,仅当容器运行网络模式为 slirp4netns,即带上参数 "--network=slirp4netns" 时,才会有 host.containers.internal 这个主机名。

但我运行容器时带的参数是 "--network=host" 啊。

再仔细看文档才知道,slirp4netns 模式是非 root 运行容器的默认模式。按照我遇到的实际情况,难道我给的 "--network=host" 参数并没有起作用?但是用 podman inspect xxx | grep NetworkMode 命令查看容器得到的结果是:

"NetworkMode": "host"

不懂,先把这个放到一边,那么如何访问 host.containers.internal 这个主机呢,有两种方式:

  • 参数改为 "--network=slirp4netns:allow_host_loopback=true"

  • 修改 /usr/share/containers/containers.conf,修改或添加配置 network_cmd_options 的值为 ["allow_host_loopback=true"]

在不修改 --network 参数的前提下,我用第二种方法试试。

修改配置文件然后重启各个 worker 容器,故障消失,Spark 任务能够顺利执行完成。但还需要观察一段时间。

“Spark集群执行任务失败如何处理”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

--结束END--

本文标题: Spark集群执行任务失败如何处理

本文链接: https://lsjlt.com/news/349853.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Spark集群执行任务失败如何处理
    本篇内容介绍了“Spark集群执行任务失败如何处理”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Spark 集群上出现一些任务执行时间过长最...
    99+
    2023-07-05
  • Spark集群执行任务失败的故障处理方法
    目录昨天(2023-02-22)开始发现公司 Spark 集群上出现一些任务执行时间过长最后失败,具体表现包括: 大量执行失败的 Task,最终任务也是失败的在 Spark Mast...
    99+
    2023-02-23
    Spark 集群任务失败故障处理 Spark 执行任务故障处理
  • goldengate ddl_setup执行失败处理
    ddl_setup执行失败处理 环境信息: ORACLE 11.2.0.4 RAC x64   OGG   11.2.1.0.1 报错提示: SQL> @ddl_s...
    99+
    2024-04-02
  • suse11sp3 执行root.sh失败bug处理
    当按照提示在节点1、节点2执行root.sh报错如下node1:/u01/app/11.2.0/grid # ./root.sh Performing root user operation fo...
    99+
    2024-04-02
  • 【Windows】定时任务执行bat文件失败
    异常描述: bat双击正常,放在Windows服务器的任务计划程序中执行失败 问题: 直接执行bat文件,正常, 运行windows定时任务来执行该bat文件,执行失败 原bat文件内容 @echo ...
    99+
    2023-09-08
    windows 运维 服务器
  • xxljob后台集群部署如何避免重复执行任务
    场景 工作中有一场景,后台部署2个节点,同时注册到执行器内,如何避免任务重复执行呢? 其实xxl-job本身已经考虑到这一点,我们只需要在创建任务的时候这样做就可以了: 路由策略:选择 一致性HASH...
    99+
    2023-09-09
    java 前端 服务器
  • Oozie如何处理失败的任务和作业
    Oozie会根据作业的配置和参数来处理失败的任务和作业。通常情况下,当作业中的某个任务失败时,Oozie会根据作业配置中定义的错误处...
    99+
    2024-04-02
  • laravel队列执行失败怎么处理
    laravel队列执行失败处理方法:1、重新执行失败的队列任务,获取有关失败任务的信息,运行 ` artisan queue:failed` 命令并选择重新执行失败的任务;2、解决常见问题,检查队列连接是否正常,队列是否超时,代码错误是否错...
    99+
    2023-07-10
  • sql语句执行失败如何解决
    当SQL语句执行失败时,可以采取以下步骤进行解决:1. 检查SQL语句的语法:确保SQL语句没有拼写错误、语法错误或者缺少必要的关键...
    99+
    2023-09-23
    sql
  • Nagios如何处理自动化任务和脚本执行
    Nagios本身并不直接处理自动化任务和脚本执行,但可以通过插件和脚本来实现自动化任务的监控和执行。 自动化任务监控:可以编写一...
    99+
    2024-03-15
    Nagios
  • spark集群如何使用hanlp进行分布式分词
    这篇文章主要介绍“spark集群如何使用hanlp进行分布式分词”,在日常操作中,相信很多人在spark集群如何使用hanlp进行分布式分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望...
    99+
    2024-04-02
  • jmap执行失败如何获取heapdump详解
    目录正文使用jmap -F使用gcore使用Linux内核的coredump机制正文 在之前的OOM问题复盘中,我们添加了jmap脚本来自动dump内存现场,方便排查OOM问题。...
    99+
    2023-05-16
    jmap获取heapdump jmap执行失败
  • Spark集群技术如何在美团网站进行部署
    本篇内容介绍了“Spark集群技术如何在美团网站进行部署”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!前言美团是数据驱动的互联网服务,用户每...
    99+
    2023-06-10
  • redis集群宕机如何处理
    redis集群宕机的处理方法:将主机数据同步给备机,redis中槽范围0-16383,一共是16384个槽,将这些槽分给对应组机器,并且对key使用crc16索法进行计算,得出一个纯数字的值余数落到那个solt槽范围内就将数据分配到对应机器...
    99+
    2024-04-02
  • php更新语句执行失败如何解决
    本文小编为大家详细介绍“php更新语句执行失败如何解决”,内容详细,步骤清晰,细节处理妥当,希望这篇“php更新语句执行失败如何解决”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。php更新语句执行失败的解决办法:...
    99+
    2023-07-04
  • java如何定时执行任务
    java如何定时执行一个方法java实现定时功能有多种方式,下面介绍3种:1、创建一个线程.import java.util.Date; public class ThreadTest { public static void ma...
    99+
    2022-04-07
    java基础 java 定时
  • Python中如何执行SQL任务
    Python中如何执行SQL任务,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。导入数据  你可以导入.sql数据库并用SQL查询中处理它们...
    99+
    2024-04-02
  • 如何解决Go语言中的并发任务的任务失败重试和异步任务处理问题?
    如何解决Go语言中的并发任务的任务失败重试和异步任务处理问题?在Go语言中,并发是一种非常常见的处理方式,可以提高程序的性能和响应速度。然而,并发任务在执行过程中可能会遇到一些错误和异常情况,这就需要处理任务失败重试和异步任务。本文将分享一...
    99+
    2023-10-22
    并发任务 (Concurrent Tasks) 任务失败重试 (Task retry) 异步任务处理 (Asynchro
  • 如何处理Go语言中的并发任务的任务调度和任务执行报告问题?
    如何处理Go语言中的并发任务的任务调度和任务执行报告问题?引言:并发任务的任务调度和任务执行报告是Go语言中常见的问题之一。在实际开发中,我们经常需要同时处理多个任务,但是如何高效地调度和执行这些任务,并且能够准确地知道任务的执行情况,对于...
    99+
    2023-10-22
    并发任务调度 并发任务执行报告 Go语言中的处理方法
  • 如何在spark集群环境下使用hanlp进行中文分词
    这篇文章主要介绍“如何在spark集群环境下使用hanlp进行中文分词”,在日常操作中,相信很多人在如何在spark集群环境下使用hanlp进行中文分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何在sp...
    99+
    2023-06-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作