返回顶部
首页 > 资讯 > 后端开发 > Python >python调用mrjob实现hadoo
  • 810
分享到

python调用mrjob实现hadoo

pythonmrjobhadoo 2023-01-31 06:01:14 810人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

咱们一般写mapReduce是通过java和streaming来写的,身为pythoner的我,java不会,没办法就用streaming来写mapreduce日志分析。 这里要介绍一个模块,是基于streaming搞的东西。mrjob 可

咱们一般写mapReduce是通过java和streaming来写的,身为pythoner的我,

java不会,没办法就用streaming来写mapreduce日志分析。 这里要介绍一个

模块,是基于streaming搞的东西。


mrjob 可以让用 Python 来编写 MapReduce 运算,并在多个不同平台上运行,你可以:

  • 使用纯 Python 编写多步的 MapReduce 作业

  • 在本机上进行测试

  • hadoop 集群上运行


pip 的安装方法:

pip install mrjob


我测试的脚本

#coding:utf-8
from mrjob.job import MRJob
import re
#xiaorui.cc
#Word_RE = re.compile(r"[\w']+")
WORD_RE = re.compile(r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}")
class MRWordFreqCount(MRJob):
    def mapper(self, word, line):
        for word in WORD_RE.findall(line):
            yield word.lower(), 1
    def combiner(self, word, counts):
        yield word, sum(counts)
    def reducer(self, word, counts):
        yield word, sum(counts)
if __name__ == '__main__':
    MRWordFreqCount.run()


用法算简单:

python i.py -r inline input1 input2 input3 > out 命令可以将处理多个文件的结果输出到out文件里面。

本地模拟hadoop运行:python 1.py -r local <input> output

这个会把结果输出到output里面,这个output必须写。

hadoop集群上运行:python 1.py -r hadoop <input> output


执行脚本 ~

[root@kspc ~]# python mo.py -r local  <10.7.17.7-dnsquery.log.1> output
no configs found; falling back on auto-configuration
no configs found; falling back on auto-configuration
creating tmp directory /tmp/mo.root.20131224.040935.241241
reading from STDIN
writing to /tmp/mo.root.20131224.040935.241241/step-0-mapper_part-00000
> /usr/bin/python mo.py --step-num=0 --mapper /tmp/mo.root.20131224.040935.241241/input_part-00000 | sort | /usr/bin/python mo.py --step-num=0 --combiner > /tmp/mo.root.20131224.040935.241241/step-0-mapper_part-00000
writing to /tmp/mo.root.20131224.040935.241241/step-0-mapper_part-00001
> /usr/bin/python mo.py --step-num=0 --mapper /tmp/mo.root.20131224.040935.241241/input_part-00001 | sort | /usr/bin/python mo.py --step-num=0 --combiner > /tmp/mo.root.20131224.040935.241241/step-0-mapper_part-00001
Counters from step 1:
  (no counters found)
writing to /tmp/mo.root.20131224.040935.241241/step-0-mapper-sorted
> sort /tmp/mo.root.20131224.040935.241241/step-0-mapper_part-00000 /tmp/mo.root.20131224.040935.241241/step-0-mapper_part-00001
writing to /tmp/mo.root.20131224.040935.241241/step-0-reducer_part-00000
> /usr/bin/python mo.py --step-num=0 --reducer /tmp/mo.root.20131224.040935.241241/input_part-00000 > /tmp/mo.root.20131224.040935.241241/step-0-reducer_part-00000
writing to /tmp/mo.root.20131224.040935.241241/step-0-reducer_part-00001
> /usr/bin/python mo.py --step-num=0 --reducer /tmp/mo.root.20131224.040935.241241/input_part-00001 > /tmp/mo.root.20131224.040935.241241/step-0-reducer_part-00001
Counters from step 1:
  (no counters found)
Moving /tmp/mo.root.20131224.040935.241241/step-0-reducer_part-00000 -> /tmp/mo.root.20131224.040935.241241/output/part-00000
Moving /tmp/mo.root.20131224.040935.241241/step-0-reducer_part-00001 -> /tmp/mo.root.20131224.040935.241241/output/part-00001
Streaming final output from /tmp/mo.root.20131224.040935.241241/output
removing tmp directory /tmp/mo.root.20131224.040935.241241

执行的时候,资源的占用情况。

133630767.jpg


发现一个很奇妙的东西,mrjob居然调用shell下的sort来排序。。。。

133937941.jpg


为了更好的理解mrjob的用法,再来个例子。


from mrjob.job import MRJob
#from xiaorui.cc
class MRWordFrequencyCount(MRJob):
#把东西拼凑起来
    def mapper(self, _, line):
        yield "chars", len(line)
        yield "words", len(line.split())
        yield "lines", 1
#总结kv
    def reducer(self, key, values):
        yield key, sum(values)
if __name__ == '__main__':
    MRWordFrequencyCount.run()


看下结果:

135509171.jpg

下面是官网给的一些个用法:


我们可以看到他是支持hdfs和s3存储的 !

Running your job different ways

The most basic way to run your job is on the command line:

$ python my_job.py input.txt

By default, output will be written to stdout.

You can pass input via stdin, but be aware that mrjob will just dump it to a file first:

$ python my_job.py < input.txt

You can pass multiple input files, mixed with stdin (using the - character):

$ python my_job.py input1.txt input2.txt - < input3.txt

By default, mrjob will run your job in a single Python process. This provides the friendliest debugging experience, but it’s not exactly distributed computing!

You change the way the job is run with the -r/--runner option. You can use -rinline (the default), -rlocal, -rhadoop, or -remr.

To run your job in multiple subprocesses with a few Hadoop features simulated, use -rlocal.

To run it on your Hadoop cluster, use -rhadoop.

If you have Elastic MapReduce configured (see Elastic MapReduce Quickstart), you can run it there with -remr.

Your input files can come from HDFS if you’re using Hadoop, or S3 if you’re using EMR:

$ python my_job.py -r emr s3://my-inputs/input.txt
$ python my_job.py -r hadoop hdfs://my_home/input.txt



--结束END--

本文标题: python调用mrjob实现hadoo

本文链接: https://lsjlt.com/news/190529.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python调用mrjob实现hadoo
    咱们一般写mapreduce是通过java和streaming来写的,身为pythoner的我,java不会,没办法就用streaming来写mapreduce日志分析。 这里要介绍一个模块,是基于streaming搞的东西。mrjob 可...
    99+
    2023-01-31
    python mrjob hadoo
  • Python Web 实现Ajax调用
    Html前端: $.ajax({ type:"GET", url:'/getmobile', data:'id='+i...
    99+
    2023-01-31
    Python Web Ajax
  • 用python实现调用jar包
    本文作者:botoo背景:python3.6 32位 + jre 32位 + windows64位首先环境搭建:安装jpype,安装的时候输入 pip install jpype1 (后面要加一个1)*一定要注意 jre和python的位数...
    99+
    2023-01-31
    python jar
  • 实现正确实现Python调用jar包
    博主最近在做python的项目,需要调用jar包,但是虽然参考了网上很多的教程,但是有一点是无法解决,那就是用python无法启动jvm虚拟机!!!这是所有工作的前提,重装了好多次也没有解决,最后请教大佬解决了。 问题的关键点在于:电脑的...
    99+
    2023-01-31
    正确 Python jar
  • C#使用IronPython调用Python的实现
    目录一、前言二、IronPython安装配置三、基础使用及标准库使用1、创建python脚本2、调用脚本四、IronPython调用第三方库1、创建python虚拟环境2、pytho...
    99+
    2023-02-08
    C# IronPython调用Python IronPython调用Python
  • python 与c++相互调用实现
    目录一、c++调用Python1.Python脚本2.C++调用python脚本二、接口方法1.规范化语法三、Pthon调用c++1.基于extern2.基于swig一、c++调用P...
    99+
    2024-04-02
  • Python调用Pandas实现Excel读取
    目录开头先BB两句操作过程安装PythonPandas安装包上手使用创建Excel,写入数据完整代码开头先BB两句 基本上来说,每周五写的周报都是这个套路。 突然想用Python智...
    99+
    2024-04-02
  • Python怎么实现链式调用
    为什么是链式调用?链式调用,或者也可以称为方法链(Method Chaining),从字面意思上来说就是将一些列的操作或函数方法像链子一样穿起来的 Code 方式。我最开始感知链式调用的「美」,还要从使用 R 语言的管道操作符开始。libr...
    99+
    2023-05-15
    Python
  • Python 实现异步调用函数
    async_call.py #coding:utf-8 from threading import Thread def async_call(fn): def wrapper(*args, **kwargs): ...
    99+
    2023-01-31
    函数 Python
  • python调用wcf服务 实现网
    实现目标: 1.创建一个WCF服务,用于读卡。 再创建一个winform客户端程序,作为WCF的宿主。 WCF服务以 IP+端口的形式对外提供服务。 2.python中安装suds,用于解析 WCF的服务地址。 winfo...
    99+
    2023-01-31
    python wcf
  • Python如何实现链式调用
    本篇内容介绍了“Python如何实现链式调用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!为什么是链式调用?链式调用,或者也可以称为方法链(...
    99+
    2023-07-06
  • python中如何实现链式调用
    我们在使用Django的models查询数据库时,可以看到有这种写法: form app.models import XXX query ...
    99+
    2024-04-02
  • python函数递归调用的实现
    目录引入函数递归介绍函数递归原理及使用Practice引入 函数既可以嵌套定义也可以嵌套调用。嵌套定义指的是在定义一个函数时在该函数内部定义另一个函数;嵌套调用指的是在调用一个函数的...
    99+
    2023-05-19
    python函数递归调用 python 递归调用
  • Java中调用Python的实现示例
    目录Java core使用ProcessBuilder使用Java脚本引擎总结Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求...
    99+
    2023-05-18
    java调用python脚本 java调用python
  • python在windows调用svn-pysvn的实现
     作为EBS开发人员,开发工具用的多,部署代码类型多,管理程序麻烦,操作繁琐,一直是我最讨厌的事情。部署一次程序要使用好几个工具,改来改去,上传下载,实在难受。 扣了一下p...
    99+
    2023-02-20
    python调用svn-pysvn python svn-pysvn
  • Python中怎么实现调试器调试
    今天就跟大家聊聊有关Python中怎么实现调试器调试,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。PyDev 就能显示出一个超链接,这样您可以在导入库或函数的源代码之间导航。请注意,...
    99+
    2023-06-17
  • python如何实现链式函数调用
    这篇文章主要介绍了python如何实现链式函数调用,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。链式函数调用感谢你能够认真阅读完这篇文章,希...
    99+
    2024-04-02
  • python如何实现API的调用详解
    目录前言API数据接口API的调用和数据接口的调用调用的基础-请求方法几种常见API调用实例百度AI相关API百度地图API有道APIuuidsign常用API分享总结前言 在日常工...
    99+
    2024-04-02
  • python中实现链式调用的案例
    小编给大家分享一下python中实现链式调用的案例,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!我们在使用Django的models查询数据库时,可以看到有这种写...
    99+
    2023-06-14
  • python调用excel_vba的两种实现方式
    目录方法一: 方法二:方法一:  import win32com.client xl = win32com.client.Dispatch("Excel....
    99+
    2023-01-29
    python调用excel_vba python excel_vba调用
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作