返回顶部
首页 > 资讯 > 精选 >SparkStreaming如何解决小文件问题
  • 132
分享到

SparkStreaming如何解决小文件问题

2023-06-19 11:06:25 132人浏览 独家记忆
摘要

这期内容当中小编将会给大家带来有关sparkStreaming如何解决小文件问题,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。使用sparkstreaming时,如果实时计算结果要写入到hdfs,那么不可

这期内容当中小编将会给大家带来有关sparkStreaming如何解决小文件问题,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

SparkStreaming如何解决小文件问题

使用sparkstreaming时,如果实时计算结果要写入到hdfs,那么不可避免的会遇到一个问题,那就是在默认情况下会产生非常多的小文件,这是由sparkstreaming的微批处理模式和DStream(RDD)的分布式(partition)特性导致的,sparkstreaming为每个partition启动一个独立的线程来处理数据,一旦文件输出到HDFS,那么这个文件流就关闭了,再来一个batch的parttition任务,就再使用一个新的文件流,那么假设,一个batch为10s,每个输出的DStream有32个partition,那么一个小时产生的文件数将会达到(3600/10)*32=11520个之多。众多小文件带来的结果是有大量的文件元信息,比如文件的location、文件大小、block number等需要Namenode来维护,NameNode会因此鸭梨山大。不管是什么格式的文件,parquet、text,、JSON或者 Avro,都会遇到这种小文件问题,这里讨论几种处理Sparkstreaming小文件的典型方法。

增加batch大小

这种方法很容易理解,batch越大,从外部接收的event就越多,内存积累的数据也就越多,那么输出的文件数也就回变少,比如上边的时间从10s增加为100s,那么一个小时的文件数量就会减少到1152个。但别高兴太早,实时业务能等那么久吗,本来人家10s看到结果更新一次,现在要等快两分钟,是人都会骂娘。所以这种方法适用的场景是消息实时到达,但不想挤压在一起处理,因为挤压在一起处理的话,批处理任务在干等,这时就可以采用这种方法(是不是很像spark内部的pipeline模式,但是要注意区别哦)。

Coalesce大法好?

文章开头讲了,小文件的基数是:batch_number*partition_number,而第一种方法是减少batch_number,那么这种方法就是减少partition_number了,这个api不细说,就是减少初始的分区个数。看过spark源码的童鞋都知道,对于窄依赖,一个子RDD的partition规则继承父RDD,对于宽依赖(就是那些个叉叉叉ByKey操作),如果没有特殊指定分区个数,也继承自父rdd。那么初始的SourceDstream是几个partiion,最终的输出就是几个partition。所以Coalesce大法的好处就是,可以在最终要输出的时候,来减少一把partition个数。但是这个方法的缺点也很明显,本来是32个线程在写256M数据,现在可能变成了4个线程在写256M数据,而没有写完成这256M数据,这个batch是不算做结束的。那么一个batch的处理时延必定增长,batch挤压会逐渐增大。这种方法也要慎用,切鸡切鸡啊!

SparkStreaming外部来处理

我们既然把数据输出到hdfs,那么说明肯定是要用Hive或者sparksql这样的“sql on hadoop”系统类进一步进行数据分析,而这些表一般都是按照半小时或者一小时、一天,这样来分区的(注意不要和sparkStreaming的分区混淆,这里的分区,是用来做分区裁剪优化的),那么我们可以考虑在SparkStreaming外再启动定时的批处理任务来合并SparkStreaming产生的小文件。这种方法不是很直接,但是却比较有用,“性价比”较高,唯一要注意的是,批处理的合并任务在时间切割上要把握好,搞不好就可能回去合并一个还在写入的SparkStreaming小文件。

自己调用foreach去append

SparkStreaming提供的foreach这个outout类api,可以让我们自定义输出计算结果的方法。那么我们其实也可以利用这个特性,那就是每个batch在要写文件时,并不是去生成一个新的文件流,而是把之前的文件打开。考虑这种方法的可行性,首先,HDFS上的文件不支持修改,但是很多都支持追加,那么每个batch的每个partition就对应一个输出文件,每次都去追加这个partition对应的输出文件,这样也可以实现减少文件数量的目的。这种方法要注意的就是不能无限制的追加,当判断一个文件已经达到某一个阈值时,就要产生一个新的文件进行追加了。

上述就是小编为大家分享的SparkStreaming如何解决小文件问题了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注编程网精选频道。

--结束END--

本文标题: SparkStreaming如何解决小文件问题

本文链接: https://lsjlt.com/news/295708.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • SparkStreaming如何解决小文件问题
    这期内容当中小编将会给大家带来有关SparkStreaming如何解决小文件问题,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。使用sparkstreaming时,如果实时计算结果要写入到HDFS,那么不可...
    99+
    2023-06-19
  • HDFS如何解决小文件问题
    小编给大家分享一下HDFS如何解决小文件问题,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1.理解:我理解小文件为存储在块中的数据大小远小于块的存储容量的文件,这...
    99+
    2023-06-03
  • 如何解决css文件乱码问题
    这篇文章主要介绍如何解决css文件乱码问题,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!css文件乱码的解决办法就是将css编码和html页面编码统一起来,方法如:1、用记事本打开源码,编码另存为“ANSI”;2、用...
    99+
    2023-06-14
  • 如何解决Jupyter文件路径的问题
    这篇文章给大家分享的是有关如何解决Jupyter文件路径的问题的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。在使用Jupyter notebook时有这么一句代码start_frame = i...
    99+
    2023-06-14
  • 如何解决C# txt文件乱码问题
    本篇内容主要讲解“如何解决C# txt文件乱码问题”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何解决C# txt文件乱码问题”吧!C#和Java一样,C#提供的类库能够轻松实现对文件的操作。...
    99+
    2023-06-18
  • LInux中如何解决不小心删除/etc/passwd文件的问题
    这篇文章主要为大家展示了“LInux中如何解决不小心删除/etc/passwd文件的问题”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“LInux中如何解决不小心删除/etc/passwd文件的问...
    99+
    2023-06-05
  • 如何解决php文件中文名乱码问题
    本文操作环境:Windows7系统,PHP7.1版,Dell G3电脑。如何解决php文件中文名乱码问题php上传文件中文文件名乱码的解决方法文件上传是我们在处理表单提交时候最常用的功能之一,今天写了一个小小的demo,如下:先看结构:ht...
    99+
    2019-04-10
    php 乱码
  • Spark SQL小文件问题如何处理
    本篇内容主要讲解“Spark SQL小文件问题如何处理”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Spark SQL小文件问题如何处理”吧!1.1、小文件危害大量的小文件会...
    99+
    2023-07-05
  • 如何解决IE9 elementUI文件上传的问题
    小编给大家分享一下如何解决IE9 elementUI文件上传的问题,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!问题: IE9中...
    99+
    2024-04-02
  • logback日志文件路径问题如何解决
    这篇文章给大家介绍logback日志文件路径问题如何解决,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。对于J2SE项目,当前路径为工程所在目录如我的工程为:D:\test则使用…/logs生成的日志文件位于:D:\lo...
    99+
    2023-06-06
  • 如何解决SSH不能传输文件问题
    如何解决SSH不能传输文件问题,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。SSH不能传输文件问题提示信息为:”File transfer server could not b...
    99+
    2023-06-05
  • python-docx文件路径问题的如何解决
    本篇内容主要讲解“python-docx文件路径问题的如何解决”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python-docx文件路径问题的如何解决”吧!path = "test....
    99+
    2023-06-09
  • 如何解决csv文件读写乱码问题
    本篇内容主要讲解“如何解决csv文件读写乱码问题”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何解决csv文件读写乱码问题”吧!可能你有类似经历,用excel打开一个csv文件,中文全部显示乱...
    99+
    2023-06-15
  • win7文件管理常见问题如何解决
    今天小编给大家分享一下win7文件管理常见问题如何解决的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。win7文件管理常见问题...
    99+
    2023-07-01
  • 如何解决EXT.NET在IE9下中文太小的问题
    这篇文章主要讲解了“如何解决EXT.NET在IE9下中文太小的问题”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何解决EXT.NET在IE9下中文太小的问...
    99+
    2024-04-02
  • 如何解决Java中文问题
    这篇文章主要为大家展示了“如何解决Java中文问题”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“如何解决Java中文问题”这篇文章吧。我来说一下tomcat如何实现JSP的你就明白了。预备知识:...
    99+
    2023-06-03
  • C#中获取文件大小问题怎么解决
    本篇内容主要讲解“C#中获取文件大小问题怎么解决”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“C#中获取文件大小问题怎么解决”吧!C# 获取文件大小直接贴代码吧   ...
    99+
    2023-07-05
  • 如何解决Python复杂zip文件的解压问题
    这篇文章主要介绍“如何解决Python复杂zip文件的解压问题”,在日常操作中,相信很多人在如何解决Python复杂zip文件的解压问题问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何解决Python复杂z...
    99+
    2023-06-25
  • 如何解决vue :src 文件路径错误问题
    这篇文章主要介绍了如何解决vue :src 文件路径错误问题,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。首先先说明下vue-cli的ass...
    99+
    2024-04-02
  • 如何利用Plupload.js解决大文件上传问题
    这篇文章主要介绍如何利用Plupload.js解决大文件上传问题,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!大容量文件上传早已不是什么新鲜问题,在.net 2.0时代,HTML5也...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作