首页 > 资讯 > 精选 >怎么使用EMR Spark Relational Cache跨集群同步数据

259

分享到

怎么使用EMR Spark Relational Cache跨集群同步数据

2023-06-19 12:06:08 259人浏览薄情痞子

摘要

这篇文章给大家介绍怎么使用EMR spark Relational Cache跨集群同步数据，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。使用Relational Cache加速EMR Spark数据分析背景Relat

这篇文章给大家介绍怎么使用EMR spark Relational Cache跨集群同步数据，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

使用Relational Cache加速EMR Spark数据分析

背景

Relational Cache是EMR Spark支持的一个重要特性，主要通过对数据进行预组织和预计算加速数据分析，提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度，Relational Cache还可以应用于其他很多场景，本文主要介绍如何使用Relational Cache跨集群同步数据表。
通过统一的Data Lake管理所有数据是许多公司追求的目标，但是在现实中，由于多个数据中心，不同网络Region，甚至不同部门的存在，不可避免的会存在多个不同的大数据集群，不同集群的数据同步需求普遍存在，此外，集群迁移，搬站涉及到的新老数据同步也是一个常见的问题。数据同步的工作通常是一个比较痛苦的过程，迁移工具的开发，增量数据处理，读写的同步，后续的数据比对等等，需要很多的定制开发和人工介入。基于Relational Cache，用户可以简化这部分的工作，以较小的代价实现跨集群的数据同步。
下面我们以具体示例展示如何通过EMR Spark Relational Cache实现跨集群的数据同步。

使用Relational Cache同步数据

假设我们有A，B两个集群，需要把activity_log表的数据从集群A同步到集群B中，且在整个过程中，会持续有新的数据插入到activity_log表中，A集群中activity_log的建表语句如下：

CREATE TABLE activity_log (  user_id STRING,  act_type STRING,  module_id INT,  d_year INT)USING JSONPARTITIONED BY (d_year)

插入两条信息代表历史信息：

INSERT INTO TABLE activity_log PARTITION (d_year = 2017) VALUES("user_001", "NOTIFICATION", 10), ("user_101", "SCAN", 2)

为activity_log表建一个Relational Cache：

CACHE TABLE activity_log_syncREFRESH ON COMMITDISABLE REWRITEUSING jsONPARTITIONED BY (d_year)LOCATION "hdfs://192.168.1.36:9000/user/Hive/data/activity_log"AS SELECT user_id, act_type, module_id, d_year FROM activity_log

REFRESH ON COMMIT表示当源表数据发生更新时，自动更新cache数据。通过LOCATION可以指定cache的数据的存储地址，我们把cache的地址指向B集群的HDFS从而实现数据从集群A到集群B的同步。此外Cache的字段和Partition信息均与源表保持一致。

在集群B中，我们也创建一个activity_log表，创建语句如下：

CREATE TABLE activity_log (  user_id STRING,  act_type STRING,  module_id INT,  d_year INT)USING JSONPARTITIONED BY (d_year)LOCATION "hdfs:///user/hive/data/activity_log"

执行MSCK REPaiR TABLE activity_log自动修复相关meta信息，然后执行查询语句，可以看到在集群B中，已经能够查到之前集群A的表中插入的两条数据。

怎么使用EMR Spark Relational Cache跨集群同步数据

在集群A中继续插入新的数据：

INSERT INTO TABLE activity_log PARTITION (d_year = 2018) VALUES("user_011", "SUBCRIBE", 24);

然后在集群B中执行MSCK REPAIR TABLE activity_log并再次查询activity_log表，可以发现数据已经自动同步到集群B的activity_log表中，对于分区表，当有新的分区数据加入时，Relational Cache可以增量的同步新的分区数据，而不是重新同步全部数据。

怎么使用EMR Spark Relational Cache跨集群同步数据

如果集群A中activity_log的新增数据不是通过Spark插入的，而是通过Hive或其他方式外部导入到Hive表中，用户可以通过REFRESH TABLE activity_log_sync语句手工或通过脚本触发同步数据，如果新增数据是按照分区批量导入，还可以通过类似REFRESH TABLE activity_log_sync WITH TABLE activity_log PARTITION (d_year=2018)语句增量同步分区数据。

Relational Cache可以保证集群A和集群B中activity_log表的数据一致性，依赖activity_log表的下游任务或应用可以随时切换到集群B，同时用户也可以随时将写入数据到集群A中activity_log表的应用或服务暂停，指向集群B中的activity_log表并重启服务，从而完成上层应用或服务的迁移。完成后清理集群A中的activity_log和activity_log_sync即可。

通过Relational Cache在不同大数据集群的数据表之间同步数据，非常简单便捷。除此之外，Relational Cache也可以应用到很多其他的场景中，比如构建秒级响应的OLAP平台，交互式的BI，Dashboard应用，加速ETL过程等等。

关于怎么使用EMR Spark Relational Cache跨集群同步数据就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

--结束END--

本文标题: 怎么使用EMR Spark Relational Cache跨集群同步数据

本文链接: https://lsjlt.com/news/296156.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

怎么使用EMR Spark Relational Cache跨集群同步数据

背景

使用Relational Cache同步数据

怎么使用EMR Spark Relational Cache跨集群同步数据

redis集群怎么保证数据同步

redis集群重启后怎么同步数据库

如何使用MySQL进行跨数据库的数据同步？

怎么使用PHP实现Redis数据库集群

怎么使用DataX同步MaxCompute数据到TableStore

Elasticsearch数据同步工具怎么用

spark连接mysql数据库后怎么使用

Linux数据同步工具rsync怎么用

angularJs中怎么使用ng-model-options设置数据同步

怎么使用canal+Kafka进行数据库同步操作

Python混合怎么使用同步和异步函数

Qt怎么实现通用数据库同步

java数据同步中间件怎么应用

怎么使用pytorch读取数据集

怎么利用数据库触发器实现数据的同步

MYSQL从库数据冲突致使同步停止怎么办

怎么在MySQL数据库中实现MMM高可用群集架构

Java中怎么利用多线性同步读写数据

使用Python怎么实现SQL Server数据库的对象同步轻量级

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南