返回顶部
首页 > 资讯 > 精选 >sparksql如何调优
  • 905
分享到

sparksql如何调优

2023-06-19 11:06:34 905人浏览 安东尼
摘要

这篇文章将为大家详细讲解有关sparksql如何调优,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1,jvm调优这个是扯不断,理还乱。建议能加内存就加内存,没事调啥JVM,你都不了解JVM和你的任务数据。

这篇文章将为大家详细讲解有关sparksql如何调优,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

1,jvm调优

这个是扯不断,理还乱。建议能加内存就加内存,没事调啥JVM,你都不了解JVM和你的任务数据。

spark调优系列之内存和GC调优

2,内存调优

缓存

spark2.+采用:

spark.catalog.cacheTable("tableName")缓存表,spark.catalog.uncacheTable("tableName")解除缓存。

spark 1.+采用:

采用 sqlContext.cacheTable("tableName")缓存,sqlContext.uncacheTable("tableName") 解除缓存

Sparksql仅仅会缓存必要的列,并且自动调整压缩算法来减少内存和GC压力。

属性

默认值

介绍

spark.sql.inMemoryColumnarStorage.compressed

true

假如设置为true,SparkSql会根据统计信息自动的为每个列选择压缩方式进行压缩。

spark.sql.inMemoryColumnarStorage.batchSize

10000

控制列缓存的批量大小。批次大有助于改善内存使用和压缩,但是缓存数据会有OOM的风险

3,广播

大小表进行join时,广播小表到所有的Worker节点,来提升性能是一个不错的选择。Spark提供了两个参数可以调整,不同版本会有些许不一样,本文以Spark2.2.1为例讲解。

属性

默认值

描述

spark.sql.broadcastTimeout

300

广播等待超时时间,单位秒

spark.sql.autoBroadcastJoinThreshold

10485760 (10 MB)

最大广播表的大小。设置为-1可以禁止该功能。当前统计信息仅支持Hive Metastore表

广播的变量的使用其实,有时候没啥用处。在任务超多,夸stage使用数据的时候才能凸显其真正作用。任务一趟跑完了,其实广播不广播无所谓了。。。

4,分区数据的调控

分区设置spark.sql.shuffle.partitions,默认是200.

对于有些公司来说,估计在用的时候会有Spark sql处理的数据比较少,然后资源也比较少,这时候这个shuffle分区数200就太大了,应该适当调小,来提升性能。

也有一些公司,估计在处理离线数据,数据量特别大,而且资源足,这时候shuffle分区数200,明显不够了,要适当调大。

适当,就完全靠经验。

5,文件与分区

这个总共有两个参数可以调整:

一个是在读取文件的时候一个分区接受多少数据;

另一个是文件打开的开销,通俗理解就是小文件合并的阈值。

文件打开是有开销的,开销的衡量,Spark 采用了一个比较好的方式就是打开文件的开销用,相同时间能扫描的数据的字节数来衡量。

参数介绍如下:

属性名称

默认值

介绍

spark.sql.files.maxPartitionBytes

134217728 (128 MB)

打包传入一个分区的最大字节,在读取文件的时候。

spark.sql.files.openCostInBytes

4194304 (4 MB)

用相同时间内可以扫描的数据的大小来衡量打开一个文件的开销。当将多个文件写入同一个分区的时候该参数有用。该值设置大一点有好处,有小文件的分区会比大文件分区处理速度更快(优先调度)。

spark.sql.files.maxPartitionBytes该值的调整要结合你想要的并发度及内存的大小来进行。

spark.sql.files.openCostInBytes说直白一些这个参数就是合并小文件的阈值,小于这个阈值的文件将会合并。

6,文件格式

建议parquet或者orc。Parquet已经可以达到很大的性能了。

关于“sparksql如何调优”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

--结束END--

本文标题: sparksql如何调优

本文链接: https://lsjlt.com/news/295638.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • sparksql如何调优
    这篇文章将为大家详细讲解有关sparksql如何调优,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1,jvm调优这个是扯不断,理还乱。建议能加内存就加内存,没事调啥JVM,你都不了解JVM和你的任务数据。...
    99+
    2023-06-19
  • 巨杉Tech | SparkSQL+SequoiaDB 性能调优策略
    当今时代,企业数据越发膨胀。数据是企业的价值,但数据处理也是一种技术挑战。在海量数据处理的场景,即使单机计算能力再强,也无法满足日益增长的数据处理需求。所以,分布式才是解决该类问题的根本解决方案。而在分布式领域,有两类典型产品,分别是分布式...
    99+
    2021-09-27
    巨杉Tech | SparkSQL+SequoiaDB 性能调优策略
  • SparkSQL关于性能调优选项详解
    目录Spark_SQL性能调优性能调优选项几种压缩选项的特点可选的调优选项代码示例Spark_SQL性能调优 众所周知,正确的参数配置对提升Spark的使用效率具有极大助力,帮助相关...
    99+
    2023-02-01
    Spark SQL性能调优 Spark性能调优
  • 怎么解析SparkSQL+SequoiaDB 性能调优策略
    这篇文章将为大家详细讲解有关怎么解析SparkSQL+SequoiaDB 性能调优策略,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。下面介绍 Sequoia...
    99+
    2024-04-02
  • SparkSQL如何运用
    今天小编给大家分享一下SparkSQL如何运用的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。一:SparkSQL1.Spar...
    99+
    2023-06-29
  • IDEA如何开发配置SparkSQL
    这篇文章将为大家详细讲解有关IDEA如何开发配置SparkSQL,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1.添加依赖在idea项目的pom.xml中添加依赖。<!--spark sq...
    99+
    2023-06-20
  • sparksql优化的方法是什么
    SparkSQL优化的方法有以下几种: 数据分区:根据数据的特点和查询的需求,将数据划分成多个分区。这样可以提高查询的性能,因为...
    99+
    2023-10-22
    sparksql
  • 如何调优Elasticsearch
    这篇文章主要讲解了“如何调优Elasticsearch”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何调优Elasticsearch”吧!1.数据量每天都有数量相当庞大的新闻和微博产生;在...
    99+
    2023-06-02
  • SparkSQL中DataFrame与DataSet如何使用
    本篇文章给大家分享的是有关SparkSQL中DataFrame与DataSet如何使用,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1.使用IDEA开发Spark SQL1.1...
    99+
    2023-06-20
  • 如何解析SparkSQL外部数据源
    这期内容当中小编将会给大家带来有关如何解析SparkSQL外部数据源,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。场景介绍:    大数据MapReduce,Hiv...
    99+
    2023-06-02
  • 如何实现JVM调优
    这篇文章主要讲解了“如何实现JVM调优”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何实现JVM调优”吧!我把堆区的主要结构以及参数放在下面,这样可以参照着图来看:一、如何设置最大年龄每发...
    99+
    2023-06-15
  • Nginx如何优化调整
    这篇文章将为大家详细讲解有关Nginx如何优化调整,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1、网络层面带宽带宽对Nginx性能的影响是最为直接的,就算如何独享10M的带宽也肯定不如100M带宽下Ng...
    99+
    2023-06-04
  • 如何调优jQuery的性能
    这篇文章将为大家详细讲解有关如何调优jQuery的性能,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。创建性能测试关于性能测试的第一步是创建一个合适的性能测试...
    99+
    2024-04-02
  • 如何调优SQL Server查询
    这期内容当中小编将会给大家带来有关如何调优SQL Server查询,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。在今天的文章里,我想给你展示下,当你想对特定查询创建索引设...
    99+
    2024-04-02
  • MySQL服务器如何调优
    这篇文章给大家分享的是有关MySQL服务器如何调优的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。关于 MySQL 调优有 3 种方法可以加快 MySQL 服务器的运行速度,效率从...
    99+
    2024-04-02
  • 如何调优mysql数据库
    如何调优mysql数据库?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。1、排除缓存干扰在MySQL8.0之前,数据库存在缓存。因为存在缓存,所以同一个sql的执...
    99+
    2023-06-15
  • 如何对Java程序调优
    本篇内容介绍了“如何对Java程序调优”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1、性能诊断工具性能诊断一种是针对已经确定有性能问题的系...
    99+
    2023-06-16
  • MariaDB中如何进行性能优化调优
    MariaDB 是 MySQL 的一个分支,因此在进行性能优化调优时,可以遵循类似的步骤。以下是一些常见的性能优化调优方法: 使...
    99+
    2024-04-02
  • 如何掌握JVM内存调优
    本篇内容介绍了“如何掌握JVM内存调优”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1.Full GC会对...
    99+
    2024-04-02
  • web中如何优化尾调用
    这篇文章主要为大家展示了“web中如何优化尾调用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“web中如何优化尾调用”这篇文章吧。尾调用从字面理解,自然而言就是在函数的尾部返回一个函数的调用,通...
    99+
    2023-06-27
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作