返回顶部
首页 > 资讯 > 数据库 >mongodb中使用mapreduce进行分组统计
  • 154
分享到

mongodb中使用mapreduce进行分组统计

2024-04-02 19:04:59 154人浏览 独家记忆
摘要

最近在统计某一个时间段的url去重数,由于数据量巨大导致报错,提示:distinct failed: { "errmsg" : "exception: di

最近在统计某一个时间段的url去重数,由于数据量巨大导致报错,提示:

distinct failed: {
"errmsg" : "exception: distinct too big, 16mb cap",
"code" : 17217,
"ok" : 0
} at src/monGo/shell/collection.js:1108

最终通过mapReduce来解决如下:

//定义map函数
map=function(){
    emit(this.url,{"count":1});
}
//定义reduce函数
reduce=function(key,values){
    var total=0;
    for(var i=0; i < values.length; i++){
        total+=values[i].count;
    }
    return {count:total}
}
//执行mapreduce函数,其中out的值是存储执行结果的集合
db.runCommand({"mapreduce":"visit","map":map,"reduce":reduce,"query":{"vtime":{"$gte":1412611200,"$lte":1413907119}},"out":"test.tmp"});

关于mapreduce的选项解释如下:

"out":{replace:"collection name"} -- mapreduce输出结果会替换掉原来的collection,collection不存在则创建
"out":{merge:"collection name"} -- 将新老数据进行合并,新的替换旧的,没有的添加进去
"out":{reduce:"collection name"}-- 存在老数据时,在原来的基础上加新的数据(即new value=old value+mapreduce value)
"out":{inline:1} -- 不会创建collection,结果保存在内存里面,只限于结果小于16MB的情况


您可能感兴趣的文档:

--结束END--

本文标题: mongodb中使用mapreduce进行分组统计

本文链接: https://lsjlt.com/news/44177.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • mongodb中使用mapreduce进行分组统计
    最近在统计某一个时间段的url去重数,由于数据量巨大导致报错,提示:distinct failed: { "errmsg" : "exception: di...
    99+
    2024-04-02
  • MapReduce怎么在MongoDB中使用
    本篇文章为大家展示了MapReduce怎么在MongoDB中使用,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。string map = ...
    99+
    2024-04-02
  • 怎么使用Mongodb进行分析
    要使用Mongodb进行分析,需要按照以下步骤进行操作:1. 安装Mongodb数据库:首先,需要安装Mongodb数据库,并将其设...
    99+
    2023-08-23
    Mongodb
  • python中pandas对多列进行分组统计的实现
    使用groupby([ ]).size()统计的结果,值相同的字段值会不显示 如上图所示,第一个空着的行是982499 7 3388 1,因为此行与前面一行的这两个字段值是一样...
    99+
    2024-04-02
  • NumPy进行统计分析
    目录1 读/写文件1、二进制的文件读写2、读取文本格式的数据2 使用数组进行简单统计分析1、排序2、去重与重复数据3、常用的统计函数1 读/写文件 NumPy文件读写主要有二进制的文...
    99+
    2023-05-20
    NumPy 统计分析 NumPy 统计
  • 使用ES对中文文章进行分词,并进行词频统计排序
    前言:首先有这样一个需求,需要统计一篇10000字的文章,需要统计里面哪些词出现的频率比较高,这里面比较重要的是如何对文章中的一段话进行分词,例如“北京是×××的首都”,“北京”,“×××”,“中华”,“华...
    99+
    2024-04-02
  • Python使用MapReduce编程模型统计销量
    目录1、生成模拟数据2、mapper实现3、reducer实现MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和...
    99+
    2024-04-02
  • SQL进行排序、分组、统计的10个新技巧分享
    1.使用排序使数据有序通常,你的所有数据真正需要的仅仅是按某种顺序排列。SQL的ORDER BY语句可以以字母或数字顺序组织数据。因此,相似的值按组排序在一起。然而,这个分组时排序的...
    99+
    2022-11-15
    排序 分组 统计
  • 「 Hadoop」mapreduce对温度数据进行自定义排序、分组、分区等 【转载】
    原帖地址:http://www.ptbird.cn/mapreduce-tempreture.html 「 Hadoop」mapreduce对温度数据进行自定义排序、分组、分区等   一、需求说明 1、数据文件说明 hdfs...
    99+
    2017-04-10
    Hadoop」mapreduce对温度数据进行自定义排序 分组 分区等 【转载】
  • spark中如何使用groupByKey进行分组排序
    今天小编给大家分享一下spark中如何使用groupByKey进行分组排序的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。任务...
    99+
    2023-07-05
  • 使用Java8进行分组(多个字段的组合分组)
    目录java8分组 传统写法(单个字段分组)java8分组 传统写法(多个字段分组)分析:多个分组条件 与 单个分组条件 两种写法多个字段的优雅写法再度优化在SQL中经常会用到分组,...
    99+
    2024-04-02
  • Python怎么使用MapReduce编程模型统计销量
    这篇文章主要介绍了Python怎么使用MapReduce编程模型统计销量的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python怎么使用MapReduce编程模型统计销量文章都会有所收获,下面我们一起来看看吧...
    99+
    2023-06-30
  • 使用 Postgres 和 MongoDB 进行 CRUD?
    php小编西瓜在本文中将带您了解如何使用Postgres和MongoDB进行CRUD操作。Postgres是一种关系型数据库,而MongoDB则是一种文档型数据库。CRUD操作指的是创...
    99+
    2024-02-09
    用户注册
  • MongoDB中怎么使用统计count()方法
    这篇文章将为大家详细讲解有关MongoDB中怎么使用统计count()方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。在MongoDB中对于大量的数据,可以使用count()方法对数据进行统计,得到某个...
    99+
    2023-06-14
  • 如何在PHP中使用NumPy数组进行高效计算?
    在PHP中使用NumPy数组可以让我们更加高效地进行计算和分析。NumPy是一个非常流行的Python科学计算库,它提供了高性能的多维数组对象和各种处理这些数组的工具。虽然PHP本身并不支持NumPy数组,但是可以通过使用PHP的扩展来实现...
    99+
    2023-07-23
    windows 大数据 numy
  • Python中使用NumPy进行分布式计算,有多快?
    NumPy是Python中常用的数学计算库,它能够高效地进行数值计算、矩阵计算、数组计算等。在实际应用中,我们往往需要处理大规模的数据,并进行高效的计算。为了提高计算速度,我们可以使用分布式计算技术。本文将介绍如何使用NumPy进行分布式...
    99+
    2023-10-20
    numpy leetcode 分布式
  • 如何在 Python 中使用 NumPy 库对文件中的数据进行统计分析?
    Python 是一种强大的编程语言,它拥有众多的库和工具可以帮助开发者更高效地完成任务。其中,NumPy 库是一款专门用于数值计算的库,在处理大量数据时可以提供高效的处理速度和良好的性能。 在本文中,我们将介绍如何使用 NumPy 库对文件...
    99+
    2023-11-04
    文件 关键字 numy
  • 如何进行系统分析与设计
    概述首先,系统是什么?根据《系统架构》一书的定义,系统是由一组实体和这些实体之间的关系所构成的集合,其功能要大于这些实体各自的功能之和。对于我们的场景,系统可能是 App、Web 应用、服务、批处理程序等,也可能是包括所有这些的一个大系统。...
    99+
    2023-06-05
  • R语言-使用ifelse进行数据分组
    数据分组,根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来研究,以揭示内在的联系和规律性; 在R中,我们常用ifelse函数来进行数据的分组,跟exc...
    99+
    2024-04-02
  • PHP 数组分组函数在统计分析中的应用
    使用 php 的 array_group_by() 函数可以对数组中的数据进行分组,从而方便进行统计分析,包括:分组后,可以通过 array_map() 函数计算每个组中的元素数量。还可...
    99+
    2024-05-02
    php 数组分组
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作