首页 > 资讯 > 后端开发 > 其他教程 >Spark SQL小文件问题处理

281

分享到

Spark SQL小文件问题处理

Spark SQL小文件问题处理 SQL小文件问题处理 Spark处理小文件 2023-05-14 20:05:54 281人浏览安东尼

摘要

目录1.1、小文件危害1.2、产生小文件过多的原因1.3、如何解决这种小文件的问题呢？1.3.1、调优参数1.1、小文件危害大量的小文件会影响hadoop集群管理或者spark在处

1.1、小文件危害

大量的小文件会影响hadoop集群管理或者spark在处理数据时的稳定性：

1.Spark sql写Hive或者直接写入hdfs，过多的小文件会对Namenode内存管理等产生巨大的压力，会影响整个集群的稳定运行
2.容易导致task数过多，如果超过参数spark.driver.maxResultSize的配置（默认1g），会抛出类似如下的异常，影响任务的处理

Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 478 tasks (2026.0 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

当然可以通过调大spark.driver.maxResultSize的默认配置来解决问题，但如果不能从源头上解决小文件问题，以后还可能遇到类似的问题。此外，Spark在处理任务时，一个分区分配一个task进行处理，多个分区并行处理，虽然并行处理能够提高处理效率，但不是意味着task数越多越好。如果数据量不大，过多的task运行反而会影响效率。最后，Spark中一个task处理一个分区从而也会影响最终生成的文件数。

1.2、产生小文件过多的原因

1、流式处理中，每个批次的处理执行保存操作也会产生很多小文件
2、为了解决数据更新问题，同一份数据保存了不同的几个状态，也容易导致文件数过多

1.3、如何解决这种小文件的问题呢？

通过repartition或coalesce算子控制最后的DataSet的分区数, 注意repartition和coalesce的区别
将Hive风格的Coalesce and Repartition Hint 应用到Spark SQL 需要注意这种方式对Spark的版本有要求，建议在Spark2.4.X及以上版本使用，

示例：
INSERT ... SELECT  ...
INSERT ... SELECT  ...

小文件定期合并可以定时通过异步的方式针对Hive分区表的每一个分区中的小文件进行合并操作

上述只是给出3种常见的解决办法，并且要结合实际用到的技术和场景去具体处理，比如对于HDFS小文件过多，也可以通过生成HAR 文件或者Sequence File来解决。

1.3.1、调优参数

在小文件场景下，您可以通过如下配置手动指定每个Task的数据量（Split Size），确保不会产生过多的Task，提高性能。

当SQL逻辑中不包含Shuffle操作时，设置此配置项，不会有明显的性能提升。

参数	描述	默认值
spark.sql.small.file.combine	用于设置是否开启小文件优化。 “true”表示开启。开启后，可以避免过多的小Task。	false
spark.sql.small.file.split.size	合并小文件后，用于指定单个Task期望的数据量。单位：Byte	256000000

set spark.default.parallelism = 400;

调整最后的task个数；

SELECT age, name FROM person DISTRIBUTE BY age;//按照某个字段重新分区重新分区。
对于使用动态分区的任务，使用distribute by。

insert overwrite table dm.dm_grw_retain_abtest_sd partition (year, month, day, retain_days)
select ……
distribute by retain_days -- 最终每个子分区一个文件
distribute by retain_days, cast(rand()*7 as int) -- 最终每个子分区7个文件

到此这篇关于Spark SQL小文件问题处理的文章就介绍到这了,更多相关SQL小文件问题处理内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

--结束END--

本文标题: Spark SQL小文件问题处理

本文链接: https://lsjlt.com/news/204497.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Spark SQL小文件问题处理

目录

1.1、小文件危害

1.2、产生小文件过多的原因

1.3、如何解决这种小文件的问题呢？

1.3.1、调优参数

Spark SQL小文件问题处理

Spark SQL小文件问题处理

Spark SQL小文件问题如何处理

spark sql/hive小文件问题

[离线计算-Spark|Hive] HDFS小文件处理

spark怎么处理大量日志文件

处理Oracle 监听文件listener.log问题

1.sql数据处理问题

python处理大文件的内存问题

Django怎么处理文件上传问题

MySQL迁移文件的小问题

PHP中文文件名乱码问题处理技巧

如何在Spark SQL中读取JSON文件

Python 文件操作的常见问题解答：破解文件处理难题

python的中文处理问题

SparkStreaming如何解决小文件问题

C#中获取文件大小问题

HDFS如何解决小文件问题

Spark SQL中出现CROSS JOIN 问题该怎么解决

如何在Python中处理文件读写的问题

c语言怎么计算字符串长度

c++排序函数sort怎么使用

C++中beginthreadex线程启动不了怎么解决

c语言swap函数如何调用

c++中使用swap函数报错怎么解决

c++中decltype的用法是什么

c语言中sizeof语句怎么使用

C语言怎么实现对文件夹加密

c语言怎么将小数转换成整数

C++中coledatetime函数的用法是什么