首页 > 资讯 > 精选 >Spark里的闭包是什么

582

分享到

Spark里的闭包是什么

2023-06-19 11:06:18 582人浏览泡泡鱼

摘要

本篇内容主要讲解“spark里的闭包是什么”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Spark里的闭包是什么”吧!闭包的概念如下图：在spark应用里，变量及函数的作用范围和声明周期在spa

本篇内容主要讲解“spark里的闭包是什么”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Spark里的闭包是什么”吧!

闭包的概念如下图：

Spark里的闭包是什么

在spark应用里，变量及函数的作用范围和声明周期在spark的集群运行模式下是比较难理解的，尤其是对初学者来说。RDD的操作，要修改其作用范围的变量，经常会出点叉子。下面，可以举个用foreach，修改一个计数器的例子。

例子

求和RDD元素的例子，该例子会根据该段代码是否执行在同一个JVM里面有不同的输出结果，比如local模式，运行于同一个jvm，输出是15；cluster模式运行于不同jvm输出是0。

val data = Array(1, 2, 3, 4, 5)

var counter = 0

var rdd = sc.parallelize(data)

// Wrong: Don't do this!!

rdd.foreach(x => counter += x)

println("Counter value: " + counter)

本地或集群模式

上述代码的行为是未定义的，并且不同模式下运行情况不同。为了执行作业，Spark将RDD操作的处理分解为tasks，每个task由Executor执行。在执行之前，Spark会计算task的闭包。闭包是Executor在RDD上进行计算的时候必须可见的那些变量和方法（在这种情况下是foreach()）。闭包会被序列化并发送给每个Executor。

发送给每个Executor的闭包中的变量是副本，因此，当foreach函数内引用计数器时，它不再是driver节点上的计数器。driver节点的内存中仍有一个计数器，但该变量是Executor不可见的！执行者只能看到序列化闭包的副本。因此，计数器的最终值仍然为零，因为计数器上的所有操作都引用了序列化闭包内的值。

在本地模式下，在某些情况下，该foreach函数实际上将在与driver相同的JVM内执行，并且会引用相同的原始计数器，并可能实际更新它。

为了确保在这些场景中明确定义的行为，应该使用一个Accumulator。Spark中的累加器专门用于提供一种机制，用于在集群中的工作节点之间执行拆分时安全地更新变量。

一般来说，closures - constructs像循环或本地定义的方法，不应该被用来改变一些全局状态。Spark并没有定义或保证从闭包外引用的对象的改变行为。这样做的一些代码可以在本地模式下工作，但这只是偶然，并且这种代码在分布式模式下的行为不会像你想的那样。如果需要某些全局聚合，请改用累加器。

打印RDD的元素

另一个常见的习惯用法是尝试使用rdd.foreach(println)或rdd.map(println)打印出RDD的元素。在单台机器上，这将产生预期的输出并打印所有RDD的元素。但是，在cluster模式下，由Executor执行输出写入的是Executor的stdout，而不是driver上的那个stdout，所以driver的stdout不会显示这些！要在driver中打印所有元素，可以使用该collect()方法首先将RDD数据带到driver节点：rdd.collect().foreach(println)。但这可能会导致driver程序内存不足，因为collect()会将整个RDD数据提取到driver端; 如果您只需要打印RDD的一些元素，则更安全的方法是使用take()：rdd.take(100).foreach(println)。

到此，相信大家对“Spark里的闭包是什么”有了更深的了解，不妨来实际操作一番吧！这里是编程网网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

--结束END--

本文标题: Spark里的闭包是什么

本文链接: https://lsjlt.com/news/295711.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Spark里的闭包是什么

Spark里的闭包是什么

JavaScript闭包是什么

什么是JavaScript闭包

Scala闭包是什么

JavaScript中什么是闭包

Javascript闭包的作用是什么

Javascript闭包的特性是什么

javascript中什么指的是闭包

jquery闭包的概念是什么

javascript的闭包是什么意思

python闭包的功能是什么

python闭包的作用是什么

golang闭包的概念是什么

JS闭包到底是什么

Python闭包技巧是什么

JavaScript闭包是什么意思

python中闭包的概念是什么

Spark中的Executor是什么

javascript消除闭包的方法是什么

JavaScript闭包是什么及怎么用

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南