首页 > 资讯 > 后端开发 > Python >Mapreduce分布式并行编程

328

分享到

Mapreduce分布式并行编程

Mapreduce分布式并行 Mapreduce分布式 2022-11-13 14:11:31 328人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

目录1.什么是并行计算2.现在mapReduce能做什么？map：映射reduce：做比较，工作整合，上下游有些操作放在map、reduce里面都可以1.project(投射）map

1.什么是并行计算

传统并行计算：共享同一个数据，通过锁来控制数据的读写，难度大，容易导致死锁，拓展性差。但是是实时的，细颗粒度计算，计算密集型

Mapreduce：对机器的要求低，拓展性难，便宜，拓展性强，批处理场景，非实时，数据密集型（傻大）

map:分配工作任务给不同的人，并让其完成工作（工作相互独立，不互相为上下环节）

reduce：把不同的结果集合并再加上分布式

2.现在mapreduce能做什么？

map：映射

1.如小写字母变成大写字母 map

2.把年龄小于16岁的都去掉 map

3.把美元变成人民币 y=x∗6.3y=x * 6.3y=x∗6.3 map

4.地址库的一个翻译：省市县 map

5.（只要是一些处理数据相关的，都应当是在map上）

reduce：做比较，工作整合，上下游

1.统计年薪最高的人（一个组）key

2.按照男女计算平均年龄（俩个组）key

3.排序 reduce

有些操作放在map、reduce里面都可以

a-------->a----->A

map--------- reduce ×

前提：尽量要减少数据的流动，reduce阶段数据越少越好，能在map做就在map做掉

数据SQL:

Select name ,age,gender from people where id =3

1.project(投射）map完成

Select name ,age,gender

2.filter（过滤）map完成

id=3

3.key(汇集）

如：Select avg(age),gender from peoplemap:age,gender ---project
key:gender(F,M) //分为man和female

reduce:按照key进行汇集 F(25,38,23),M(45,23)

reduce：avg

如：Select max(age),gender from people这里和上面差不多，但是就没有key了放在同一个地方

oss和hive的区别？

在文件系统上

实验部分：

1. 搭建各类环境

为了模拟真实情况,我这里搭建了分布式的hadoop集群,分别有三台机器。一台做master，一台做slave。

2. 搭建、配置zookeeper

3. 启动zookeeper

/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start

4. 安装配置java

5. 主从节点格式化

6. 启动集群

/usr/hadoop/hadoop-2.7.3/sbin/start-all.sh

7. 安装Scala

8. 启动spark集群

/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh

9. jps查看已经启动的

以上就是Mapreduce分布式并行编程的详细内容，更多关于Mapreduce分布式的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

--结束END--

本文标题: Mapreduce分布式并行编程

本文链接: https://lsjlt.com/news/171874.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Mapreduce分布式并行编程

目录1.什么是并行计算2.现在mapreduce能做什么？map：映射reduce：做比较，工作整合，上下游有些操作放在map、reduce里面都可以1.project(投射）map...

99+

2022-11-13

Mapreduce分布式并行 Mapreduce分布式
怎么在Redis上对Java执行分布式MapReduce

这篇文章主要讲解了“怎么在Redis上对Java执行分布式MapReduce”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么在Redis上对Java执行分布式MapReduce”吧！什么是...

99+

2023-06-05
Golang 函数在分布式系统中的并行编程

在分布式系统中，go 函数通过 goroutine 和 channel 实现并行编程，显著提升系统性能。goroutine 是轻量级线程，由 go 关键字启动，可以在不同 cpu 内核上...

99+

2024-04-19

并发编程分布式系统 golang 高可扩展性
C++ 元编程在分布式系统和并行编程中的潜力如何？

c++++ 元编程通过在编译时操作代码，提供了强大的功能，可用于分布式系统和并行编程。分布式系统：元编程能够在运行时动态地创建和修改代码，以便机器在分布式协议下进行有效通信。并行编程：元...

99+

2024-05-21

c++ 元编程
Python 并行分布式框架 Celer

Celery 官网：http://www.celeryproject.orgCelery 官方文档英文版：http://docs.celeryproject.org/en/latest/index.htmlCel...

99+

2023-01-31

分布式框架 Python
C++ 函数如何支持分布式并发编程？

c++++ 支持分布式并发编程，提供以下功能：并行计算库：std::thread、std::mutex 和 std::condition_variable，用于创建和管理线程、同步对共享...

99+

2024-04-26

c++ 函数分布式并发编程 c++
如何使用 ASP 进行分布式编程？教程来了！

ASP（Active Server Pages）是一种用于创建动态网页的技术，它可以让开发者在网页中嵌入脚本语言，从而实现动态内容的生成。除此之外，ASP 还可以进行分布式编程，让多个应用程序在不同的计算机上协同工作。本文将介绍如何使用 ...

99+

2023-08-07

分布式教程编程算法
Golang编程并发工具库MapReduce使用实践

目录环境项目需求mapReduce使用说明需求实现业务逻辑创建任务队列运行结果结论引申阅读环境 go version go1.16.4 windows/amd64 Intel(R) ...

99+

2024-04-02
PHP 并发编程，如何应对分布式系统挑战？

在当今互联网时代，随着互联网应用的不断扩张，分布式系统已经成为了互联网应用中的一个重要组成部分。而在分布式系统中，如何应对并发编程的挑战，是一个必须要解决的问题。本文将介绍 PHP 并发编程的基本知识，并探讨在分布式系统中如何应对并发编程...

99+

2023-06-16

并发面试分布式
你知道如何用 ASP 进行分布式编程吗？

ASP（Active Server Pages）是一种用于创建动态网页的技术，它可以使用多种编程语言来编写，包括 VBScript 和 JavaScript。在分布式计算中，ASP 可以用来编写分布式应用程序，实现多台计算机之间的数据共享和...

99+

2023-08-07

分布式教程编程算法
如何在分布式系统中使用ASP.NET进行编程？

在如今的互联网时代，分布式系统已经成为了许多企业和组织的标配，而ASP.NET又是一个被广泛使用的开发框架。那么如何在分布式系统中使用ASP.NET进行编程呢？本篇文章将为您详细介绍。一、什么是分布式系统？分布式系统是指由多个独立计算机...

99+

2023-10-22

leetcode 分布式 unix
PHP并发编程之路：如何实现分布式文件处理？

随着互联网技术的不断发展，数据量越来越庞大，单机处理已经无法满足需求。分布式处理成为了必然的趋势。本文将介绍如何使用PHP实现分布式文件处理，让数据处理更加高效。什么是分布式文件处理？分布式文件处理指的是将大规模的文件处理任务分发...

99+

2023-09-22

并发文件分布式
分布式函数能否成为PHP并发编程的新趋势？

随着互联网技术的不断发展，人们对于并发编程的需求也越来越高。而在这个过程中，分布式函数作为一种新型的编程模式，是否有可能成为PHP并发编程的新趋势呢？本文将从分布式函数的概念、分布式函数在PHP中的应用以及分布式函数的优势等方面进行探讨。 ...

99+

2023-10-06

分布式函数并发
分布式编程的挑战：Python 异步编程的实现方式

随着互联网技术的不断发展，分布式系统已经成为了现代软件开发中的一个重要组成部分。分布式系统的核心在于将一个大型问题分解成若干个小问题，再将这些小问题分配到多个计算机节点上去处理。这种方式可以大大提高计算效率和系统的可靠性，但是也带来了一些...

99+

2023-10-14

异步编程编程算法分布式
Python真的适合分布式编程吗？

Python是一种高级编程语言，以其易读性、简洁性和灵活性而闻名。它已成为数据科学和机器学习领域的主要语言之一。但是，Python是否适合分布式编程呢？本文将探讨Python在分布式编程中的用途和优劣势，并提供一些示例代码。 Python在...

99+

2023-09-14

分布式 git leetcode
Go 语言分布式编程教程：让你的程序规模化运行！

随着互联网技术的快速发展，分布式系统成为了当前互联网领域中最受欢迎的架构之一。而 Go 语言作为一种高效、可靠、易于编写的编程语言，也成为了分布式系统开发者的首选语言。本篇文章将为大家介绍如何使用 Go 语言编写分布式系统，并演示一些示例...

99+

2023-08-26

分布式教程面试
C#并行编程之PLINQ(并行LINQ)

用于对内存中的数据做并行运算，也就是说其只支持 LINQ to Object 的并行运算一、AsParallel(并行化）就是在集合后加个AsParallel()。例如： va...

99+

2024-04-02
从零开始学习 PHP 并发编程与分布式系统设计

随着互联网的快速发展，分布式系统的重要性越来越凸显出来。PHP 作为一种高性能的 Web 开发语言，也需要支持并发编程和分布式系统设计。本文将从零开始介绍 PHP 并发编程和分布式系统设计，帮助 PHP 开发人员更好地理解和应用这些技术。...

99+

2023-06-16

并发面试分布式
PHP并发编程：如何优化分布式文件处理的性能？

在分布式系统中，文件处理是一个非常重要的任务。然而，由于文件处理涉及到大量的IO操作，因此很容易成为整个系统的瓶颈。为了充分利用系统资源，我们需要使用并发编程来优化文件处理的性能。在本文中，我们将介绍如何使用PHP并发编程来优化分布式文件...

99+

2023-09-22

并发文件分布式
如何用Python编写分布式程序并实现重定向功能？

分布式程序是指由多个计算机协同工作完成某项任务的程序，这种程序的主要优点是可以大大提高计算效率和可靠性。Python是一种十分流行的编程语言，也是分布式编程的一种常用语言。在本文中，我们将介绍如何使用Python编写分布式程序并实现重定向功...

99+

2023-07-09

分布式重定向 ide