首页 > 资讯 > 后端开发 > Python >用Python来写MapReduce的实

889

分享到

用Python来写MapReduce的实

来写 Python MapReduce 2023-01-31 02:01:33 889人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

用python来写分布式的程序。这样速度快。便于调试，更有实际意义。mapReduce适合于对文本文件的处理及数据挖掘用：　　在每台机器上： su - hadoop wget Http://www.Python.org/ftp/

用python来写分布式的程序。这样速度快。便于调试，更有实际意义。mapReduce适合于对文本文件的处理及数据挖掘用：

　　在每台机器上：
su - hadoop wget Http://www.Python.org/ftp/python/3.0.1/Python-3.0.1.tar.bz2 tar jxvf Python-3.0.1.tar.bz2 cd Python-3.0.1 ./configure --prefix=/home/hadoop/python;make;make install

vi /home/hadoop/mapper.py


#!/home/hadoop/python/bin/python3.0

import sys
for line in sys.stdin:
    line = line.strip()
    Words = line.split()
    for word in words:
        print ("%st%s" % (word, 1))

vi /home/hadoop/reduce.py


#!/home/hadoop/python/bin/python3.0

from operator import itemgetter
import sys

word2count = {}

for line in sys.stdin:
    line = line.strip()
    word, count = line.split('t', 1)
    try:
        count = int(count)
        word2count[word] = word2count.get(word, 0) + count
    except ValueError:
        pass

sorted_word2count = sorted(word2count.items(), key=itemgetter(0))

for word, count in sorted_word2count:
    print ("%st%s" % (word, count))

　　测测好不好用：
echo "foo foo quux labs foo bar quux" | /home/hadoop/mapper.py foo 1 foo 1 quux 1 labs 1 foo 1 bar 1 quux 1

echo "foo foo quux labs foo bar quux" | /home/hadoop/mapper.py | sort | /home/hadoop/reduce.py
bar 1
foo 3
labs 1
quux 2

　　在各个节点上都要准备好这两个文件啊！！！

　　在master主节点上执行：

# 拷贝conf目录到hdfs文件系统中
$ cd /home/hadoop/hadoop-0.19.1 $ bin/hadoop dfs -copyFromLocal conf 111

　　# 查看一下是否已经拷过去了
$ bin/hadoop dfs -ls Found 1 items drwxr-xr-x - hadoop supergroup 0 2009-05-18 15:27 /user/hadoop/111

　　# 分布计算
$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar -mapper /home/hadoop/mapper.py -reducer /home/hadoop/reduce.py -input 111/* -output 111-output additionalConfSpec_:null null=@@@userJobConfProps_.get(stream.shipped.hadoopstreaming packageJobJar: [/tmp/hadoop-hadoop/hadoop-unjar29198/] [] /tmp/streamjob29199.jar tmpDir=null [...] INFO mapred.FileInputFORMat: Total input paths to process : 12 [...] INFO streaming.StreamJob: getLocalDirs(): [/tmp/hadoop-hadoop/mapred/local] [...] INFO streaming.StreamJob: Running job: job_200905191453_0001 [...] INFO streaming.StreamJob: To kill this job, run: ... [...] [...] INFO streaming.StreamJob: map 0% reduce 0% [...] INFO streaming.StreamJob: map 43% reduce 0% [...] INFO streaming.StreamJob: map 86% reduce 0% [...] INFO streaming.StreamJob: map 100% reduce 0% [...] INFO streaming.StreamJob: map 100% reduce 33% [...] INFO streaming.StreamJob: map 100% reduce 70% [...] INFO streaming.StreamJob: map 100% reduce 77% [...] INFO streaming.StreamJob: map 100% reduce 100% [...] INFO streaming.StreamJob: Job complete: job_200905191453_0001 [...] INFO streaming.StreamJob: Output: 111-output [hadoop@wangyin4 hadoop-0.19.1]$ $ bin/hadoop dfs -ls 111-output Found 2 items drwxr-xr-x - hadoop supergroup 0 2009-05-19 14:54 /user/hadoop/111-output/_logs -rw-r--r-- 2 hadoop supergroup 30504 2009-05-19 16:26 /user/hadoop/111-output/part-00000 $ bin/hadoop dfs -cat 111-output/part-00000 you 3 you've 1 your 1 zero 3 zero, 1
Over，搞定。大家可以拓展这个例子，写出自己的应用来。

您可能感兴趣的文档:

--结束END--

本文标题: 用Python来写MapReduce的实

本文链接: https://lsjlt.com/news/186076.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

用Python来写MapReduce的实

用Python来写MapReduce的实

iPad适合用来写Python吗？

深入探究如何使用Java编写MapReduce程序

SQLite5-使用Python来读写数据库

Python使用MapReduce编程模型统计销量

java实现mapreduce的方法是什么

hadoop中mapreduce的作用是什么

使用Python来编写HTTP服务器的超级指南

java 矩阵乘法的mapreduce程序实现

MapReduce多种join实现的示例分析

SQLite5中怎么使用Python来读写数据库

用Python写游戏脚本原来这么简单

如何进行MapReduce数据序列化读写概念的浅析

c#能用来写什么

MySQL中通过ProxySQL的使用来实现读写分离

Python怎么使用MapReduce编程模型统计销量

写写python中try的使用

如何使用hadoop archive合并小文件并进行mapreduce来减少map的数量

Golang编程并发工具库MapReduce使用实践

c语言和python区别主要用来写什么

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义