首页 > 资讯 > 精选 >Spark集群执行任务失败如何处理

351

分享到

Spark集群执行任务失败如何处理

2023-07-05 06:07:12 351人浏览薄情痞子

摘要

本篇内容介绍了“spark集群执行任务失败如何处理”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！Spark 集群上出现一些任务执行时间过长最

本篇内容介绍了“spark集群执行任务失败如何处理”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

Spark 集群上出现一些任务执行时间过长最后失败，具体表现包括：

大量执行失败的 Task，最终任务也是失败的
在 Spark Master 管理界面上看到任务的 Driver 地址不是真实 IP 地址，而是一个叫做“host.containers.internal”的主机名；
Spark 的 worker 节点上能观察到在不停的创建 Java 进程，然后进程瞬间就结束了；
进入 worker 节点的日志目录查看日志内容，发现异常信息为连接 “host.containers.internal” 这个地址失败。

所以显然当前出现的问题跟“host.containers.internal”有关系。

背景说明：我们的 Spark 集群是运行在 podman 容器里的，而且是在非 root 用户下运行。

经过在互联网上搜索，发现这个主机名是容器分配给内部进程用来连接容器所在主机自身的。再进一步查看 podman 参考文档，按照里面的说法，仅当容器运行网络模式为 slirp4netns，即带上参数 "--network=slirp4netns" 时，才会有 host.containers.internal 这个主机名。

但我运行容器时带的参数是 "--network=host" 啊。

再仔细看文档才知道，slirp4netns 模式是非 root 运行容器的默认模式。按照我遇到的实际情况，难道我给的 "--network=host" 参数并没有起作用？但是用 podman inspect xxx | grep NetworkMode 命令查看容器得到的结果是：

"NetworkMode": "host"

不懂，先把这个放到一边，那么如何访问 host.containers.internal 这个主机呢，有两种方式：

参数改为 "--network=slirp4netns:allow_host_loopback=true"
修改 /usr/share/containers/containers.conf，修改或添加配置 network_cmd_options 的值为 ["allow_host_loopback=true"]

在不修改 --network 参数的前提下，我用第二种方法试试。

修改配置文件然后重启各个 worker 容器，故障消失，Spark 任务能够顺利执行完成。但还需要观察一段时间。

“Spark集群执行任务失败如何处理”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站，小编将为大家输出更多高质量的实用文章！

--结束END--

本文标题: Spark集群执行任务失败如何处理

本文链接: https://lsjlt.com/news/349853.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Spark集群执行任务失败如何处理

Spark 集群上出现一些任务执行时间过长最后失败，具体表现包括：

Spark集群执行任务失败如何处理

Spark集群执行任务失败的故障处理方法

goldengate ddl_setup执行失败处理

suse11sp3 执行root.sh失败bug处理

【Windows】定时任务执行bat文件失败

xxljob后台集群部署如何避免重复执行任务

Oozie如何处理失败的任务和作业

laravel队列执行失败怎么处理

sql语句执行失败如何解决

Nagios如何处理自动化任务和脚本执行

spark集群如何使用hanlp进行分布式分词

jmap执行失败如何获取heapdump详解

Spark集群技术如何在美团网站进行部署

redis集群宕机如何处理

php更新语句执行失败如何解决

java如何定时执行任务

Python中如何执行SQL任务

如何解决Go语言中的并发任务的任务失败重试和异步任务处理问题？

如何处理Go语言中的并发任务的任务调度和任务执行报告问题？

如何在spark集群环境下使用hanlp进行中文分词

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南