返回顶部
首页 > 资讯 > 精选 >Spark SQL中怎么创建DataFrames
  • 668
分享到

Spark SQL中怎么创建DataFrames

2023-06-01 23:06:28 668人浏览 八月长安
摘要

本篇内容主要讲解“spark sql中怎么创建DataFrames”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Spark SQL中怎么创建DataFrames”吧!一、Spark SQL简介S

本篇内容主要讲解“spark sql中怎么创建DataFrames”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Spark SQL中怎么创建DataFrames”吧!

一、Spark SQL简介

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成mapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!同时Spark SQL也支持从Hive中读取数据。

二、Spark SQL的特点

  • 无缝集成在Spark中,将SQL查询与Spark程序混合。Spark SQL允许您使用SQL或熟悉的DataFrame api在Spark程序中查询结构化数据。适用于Java、Scalapython和R语言。

  • 提供统一的数据访问,以相同的方式连接到任何数据源。DataFrames和SQL提供了一种访问各种数据源的通用方法,包括Hive、Avro、Parquet、ORC、JSON和JDBC。您甚至可以通过这些源连接数据。

  • 支持Hive集成。在现有仓库上运行SQL或HiveQL查询。Spark SQL支持HiveQL语法以及Hive SerDes和udf,允许您访问现有的Hive仓库。

  • 支持标准的连接,通过JDBC或ODBC连接。服务器模式为业务智能工具提供了行业标准JDBC和ODBC连接。

三、核心概念:DataFrames和Datasets

  • DataFrame

DataFrame是组织成命名列的数据集。它在概念上等同于关系数据库中的表,但在底层具有更丰富的优化。DataFrames可以从各种来源构建,例如:

  • 结构化数据文件

  • hive中的表

  • 外部数据库或现有RDDs

DataFrame API支持的语言有Scala,Java,Python和R。

Spark SQL中怎么创建DataFrames

从上图可以看出,DataFrame多了数据的结构信息,即schema。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外,更重要的特点是提升执行效率、减少数据读取以及执行计划的优化。

  • Datasets

Dataset是数据的分布式集合。Dataset是在Spark 1.6中添加的一个新接口,是DataFrame之上更高一级的抽象。它提供了RDD的优点(强类型化,使用强大的lambda函数的能力)以及Spark SQL优化后的执行引擎的优点。一个Dataset 可以从JVM对象构造,然后使用函数转换(map, flatMap,filter等)去操作。 Dataset API 支持Scala和Java。 Python不支持Dataset API。

四、创建DataFrames

  • 测试数据如下:员工表

Spark SQL中怎么创建DataFrames

  • 定义case class(相当于表的结构:Schema)

case class Emp(empno:Int,ename:String,job:String,mgr:Int,hiredate:String,sal:Int,comm:Int,deptno:Int)
  • hdfs上的数据读入RDD,并将RDD与case Class关联

val lines = sc.textFile("hdfs://bigdata111:9000/input/emp.csv").map(_.split(","))
  • 把每个Array映射成一个Emp的对象

val emp = lines.map(x => Emp(x(0).toInt,x(1),x(2),x(3).toInt,x(4),x(5).toInt,x(6).toInt,x(7).toInt))
  • 生成DataFrame

val allEmpdf = emp.toDF
  • 通过DataFrames查询数据

Spark SQL中怎么创建DataFrames

  • 将DataFrame注册成表(视图)

allEmpDF.createOrReplaceTempView("emp")
  • 执行SQL查询

spark.sql("select * from emp").show

到此,相信大家对“Spark SQL中怎么创建DataFrames”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

--结束END--

本文标题: Spark SQL中怎么创建DataFrames

本文链接: https://lsjlt.com/news/228044.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Spark SQL中怎么创建DataFrames
    本篇内容主要讲解“Spark SQL中怎么创建DataFrames”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Spark SQL中怎么创建DataFrames”吧!一、Spark SQL简介S...
    99+
    2023-06-01
  • Spark RDD怎么创建
    这篇文章主要介绍“ Spark RDD怎么创建”,在日常操作中,相信很多人在 Spark RDD怎么创建问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答” Spark RDD怎么创建”的疑惑有所帮助!接下来,请跟...
    99+
    2023-06-02
  • Spark SQL怎么用
    这篇文章主要介绍“Spark SQL怎么用”,在日常操作中,相信很多人在Spark SQL怎么用问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Spark SQL怎么用”的疑惑有所帮助!接下来,请跟着小编一起来...
    99+
    2023-06-03
  • SQL Server 中怎么创建约束
    今天就跟大家聊聊有关SQL Server 中怎么创建约束,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。什么是主键?在数据库中,常常不只是一个表,这些...
    99+
    2024-04-02
  • SQL Server2008中怎么创建约束
    SQL Server2008中怎么创建约束,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。1 、 Primary Key...
    99+
    2024-04-02
  • sql中临时表怎么创建
    创建 sql 临时表步骤如下:使用 create temporary table 语法创建表,指定表名和列定义。添加数据并对临时表进行操作,就像操作普通表一样。会话结束后,临时表将自动删...
    99+
    2024-05-10
  • Spark中怎么执行SQL数据
    在Spark中,可以通过以下步骤执行SQL数据: 创建一个SparkSession对象,用于连接和操作Spark集群。可以使用如下...
    99+
    2024-04-09
    Spark SQL
  • sql server中怎么禁止创建表
    这篇文章给大家介绍sql server中怎么禁止创建表,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。1、禁止创建数据库表在要禁止的数据上,例如(jb51net) 右键 》属性 》权限2...
    99+
    2024-04-02
  • Spark SQL中怎么操作JSON字段
    Spark SQL中怎么操作JSON字段,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。get_json_object第一个就是...
    99+
    2024-04-02
  • Spark Sql中FROM_UNIXTIME和UNIX_TIMESTAMP怎么使用
    这篇文章主要介绍“Spark Sql中FROM_UNIXTIME和UNIX_TIMESTAMP怎么使用”,在日常操作中,相信很多人在Spark Sql中FROM_UNIXTIME和UNIX_TIMESTAMP怎么使用问题...
    99+
    2023-06-29
  • SQL Server中怎么创建定时作业
    本篇文章给大家分享的是有关SQL Server中怎么创建定时作业,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1、首先我们打开SQL Serv...
    99+
    2024-04-02
  • sql server中怎么创建复合主键
    今天就跟大家聊聊有关sql server中怎么创建复合主键,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。创建复合主键: 方法一:创建表之后...
    99+
    2024-04-02
  • navicat中怎么用sql语句创建表
    在Navicat中使用SQL语句创建表可以通过以下步骤: 打开Navicat数据库连接,在左侧的数据库列表中选择要创建表的数据库...
    99+
    2024-05-06
    navicat sql
  • idea怎么创建sql文件
    要创建一个 SQL 文件,可以按照以下步骤进行操作: 打开一个文本编辑器,例如 Notepad++、Sublime Text 或...
    99+
    2024-04-09
    idea
  • sql创建表格怎么写
    sql 中创建表的语法为:create table table_name (column1 data_type, column2 data_type, ...),其中 table_nam...
    99+
    2024-05-30
  • SQL Server中怎么创建CLR存储过程
    这篇文章将为大家详细讲解有关SQL Server中怎么创建CLR存储过程,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。在2005之前的版本创建存储过程都是在...
    99+
    2024-04-02
  • SQL Server 2005中怎么创建存储过程
    本篇文章给大家分享的是有关SQL Server 2005中怎么创建存储过程,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。。一、首先说明如何创建...
    99+
    2024-04-02
  • SQL语句中怎么创建外部链接
    本篇文章给大家分享的是有关SQL语句中怎么创建外部链接,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。SQL语句之外部链接的创建:左连接(lef...
    99+
    2024-04-02
  • sql怎么创建外键约束
    在SQL中,可以使用以下语法来创建外键约束:1. 在创建表时添加外键约束:```CREATE TABLE 表名 (   &...
    99+
    2023-09-28
    SQL
  • SQL SERVER触发器怎么创建
    本篇内容主要讲解“SQL SERVER触发器怎么创建”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“SQL SERVER触发器怎么创建”吧!触发器是一种特殊的存储过程,触发器主...
    99+
    2023-06-29
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作