首页 > 资讯 > 数据库 >大数据之使用Spark增量抽取MySQL的数据到Hive数据库（1）

533

分享到

大数据之使用Spark增量抽取MySQL的数据到Hive数据库（1）

大数据 hive spark mysql scala 2023-10-18 18:10:01 533人浏览八月长安

摘要

目录前言题目：一、读题分析二、处理过程 1.采用SparkSQL使用max函数找到最大的日期然后转换成时间类型在变成字符串 2.这里提供除了SQL方法外的另一种过滤不满足条件的方法三、重难点分析总结前言本题来源于全国职业

前言

本题来源于全国职业技能大赛之大数据技术赛项电商赛题-离线数据处理-抽取

题目：

提示：以下是本篇文章正文内容，下面案例可供参考（使用Scala语言编写）

一、读题分析

涉及组件：Mysql,Hive,SCALA,spark

涉及知识点：

Spark读取数据库数据
DataFrameapi的使用（重点）
Spark写入数据库数据
Hive数据库的基本操作
增量数据的概念（思考：与全量数据有什么区别？）

二、处理过程

与全量数据类似，唯一不同的点在于抽取增量的数据只是在全量数据中的一部分（形象来说）。个人认为，这样在实际应用中，抽取增量数据比抽取全量数据，更节省时间，带宽，硬件处理频率。总来说，抽取增量数据而不是全量数据的目的就是减少资源的浪费。

1.采用Sparksql使用max函数找到最大的日期然后转换成时间类型在变成字符串

import org.apache.spark.sql.SparkSessionimport java.text.SimpleDateFormatimport java.util.{Calendar, Properties}object MysqlToHive {  def main(args: Array[String]): Unit = {    import org.apache.spark.sql.SaveMode    import org.apache.spark.sql.functions.lit    val spark =SparkSession.builder().appName("mysqltoHive").master("spark://bigdata1:7077").enableHiveSupport().getOrCreate()    //    读取mysql的配置    val jdbcurl = "jdbc:mysql://bigdata1:3306/db"    val tablename = "table1"    val properties = new Properties()    properties.setProperty("user", "root")    properties.setProperty("password", "123456")    properties.setProperty("driver", "com.mysql.jdbc.Driver")    //    读取mysql数据创建dataframe    val mysqlDF = spark.read.jdbc(jdbcurl, tablename, properties)    mysqlDF.createOrReplaceTempView("mysqldata")    //    读取hive数据ods库中最大的时间    spark.sql("use ods")    val hiveDF = spark.read.table("ods.table1")    hiveDF.createOrReplaceTempView("hivedata")    //    获取最大值    val maxValue = spark.sql("select max(modified_time) from hivedata").head().getTimestamp(0).toString     println("Hive最大的时间为:" + maxModifiedTime)    //    3. 使用Spark SQL查询获取customer_inf表中modified_time的最大值。    //    4. 使用head()方法获取结果集中的第一行数据。    //    5. 使用getTimestamp(0)方法获取第一列数据的Timestamp类型值。    //    6. 使用toString()方法将Timestamp类型值转换为字符串类型。    //    7. 打印最大修改时间的字符串值。    //    找到增量数据    val resultDF = spark.sql(s"select * from mysqldata where momdified_time > '$maxValue'")    //    取得昨天的日期    //    法1：    val sdf = new SimpleDateFORMat("yyyyMMdd")    val str = sdf.format(Calendar.getInstance().getTime.getTime - 24 * 60 * 60 * 1000)    //    法2：    val str = new SimpleDateFormat("yyyyMMdd").format(Calendar.getInstance().getTime.getTime - 24 * 60 * 60 * 1000)    val reDF = resultDF.withColumn("etl_date", lit(str))    reDF.write.mode(SaveMode.Append).partitionBy("etl_date").saveAsTable("ods.table1")  }}

2.这里提供除了SQL方法外的另一种过滤不满足条件的方法

    //    这里可以写死来模拟增量数据    //    val givenTime = "2022-08-23 00:00:00"    val maxValue = spark.sql("select max(modified_time) from hivedata").head().getTimestamp(0).toString    //    gt获取比givenTime时间大的数据    //    lt小于    val dataf = df.filter(col("modified_time").lt(max)).toDF()

三、重难点分析

增量数据与全量数据的不同
SparkSQL函数的使用
解决增量数据的方法

总结

什么是全量数据、增量数据？

全量数据和增量数据是在数据库系统迁移时的概念。

1.全量数据：

当前需要迁移的数据库系统的全部数据。

2.增量数据：

在数据库系统迁移过程中，对比原数据，新产生的数据即为增量数据。

原创作品如需引用请标明出处

来源地址：https://blog.csdn.net/qq_36920766/article/details/130386324

您可能感兴趣的文档:

--结束END--

本文标题: 大数据之使用Spark增量抽取MySQL的数据到Hive数据库（1）

本文链接: https://lsjlt.com/news/431594.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

大数据之使用Spark增量抽取MySQL的数据到Hive数据库（1）

目录

前言

题目：

一、读题分析

二、处理过程

1.采用Sparksql使用max函数找到最大的日期然后转换成时间类型在变成字符串

2.这里提供除了SQL方法外的另一种过滤不满足条件的方法

三、重难点分析

总结

大数据之使用Spark增量抽取MySQL的数据到Hive数据库（1）

大数据之使用Spark全量抽取MySQL的数据到Hive数据库

编写Scala代码，使用Spark讲Mysql数据表中的数据抽取到Hive的ODS层

抽取oracle数据到mysql数据库的实现

大数据Hadoop之——数据仓库Hive

spark怎么读取mysql数据库数据

大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现

MySQL数据库高级数据操作之新增数据

MySQL数据库怎么增量恢复数据

hadoop数据库怎么读取大量数据

数据上云，应该选择全量抽取还是增量抽取？

数据库迁移之mysql到达梦数据库

MySQL数据库高级数据操作之怎么新增数据

php如何导入大量数据到数据库

使用sqoop从Hive导出数据到MySQL

mysql如何查看数据库数据量大小

从Oracle用goldengate抽取数据到kafka

使用datax实现增量同步mysql数据库数据（定时任务）

怎么使用数据库查询1秒找到需要的数据

mysql数据库增量数据恢复的方法是什么

关于SQL建表语句使用详解

HBase在大数据审计与合规性追踪中的应用

MySQL与HBase在大数据金融分析中的性能与可扩展性对比

HBase的Region Server之间的网络通信优化

HBase在大数据监控与告警系统中的实时数据处理能力

MySQL与HBase在大数据安全策略中的实现与对比

HBase的分布式事务处理在复杂业务场景中的应用

MySQL与HBase在混合存储架构中的整合策略

HBase如何支持高效的二级索引查询

MySQL与HBase在物联网数据收集与处理中的协作模式