返回顶部
首页 > 资讯 > 精选 >hadoop distcp是什么
  • 682
分享到

hadoop distcp是什么

2023-06-03 02:06:11 682人浏览 泡泡鱼
摘要

这篇文章主要讲解了“hadoop distcp是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“hadoop distcp是什么”吧!概述distcp(分布式拷贝)是用于大规模集群内部和集

这篇文章主要讲解了“hadoop distcp是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“hadoop distcp是什么”吧!

概述

distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用distcp操作提供指南并阐述它的工作模型。

标识描述备注
Preserve
  r: replication number
  b: block size
  u: user
  g: group
  p: permission
修改次数不会被保留。并且当指定 忽略失败就像在 附录中提到的,这个选项会比默认情况提供关于拷贝的更精确的统计, 同时它还将保留失败拷贝操作的日志,这些日志信息可以用于调试。最后,如果一个map失败了,但并没完成所有分块任务的尝试,这不会导致整个作业的失败。
记录日志到 <logdir>DistCp为每个文件的每次尝试拷贝操作都记录日志,并把日志作为map的输出。 如果一个map失败了,当重新执行时这个日志不会被保留。
同时拷贝的最大数目指定了拷贝数据时map的数目。请注意并不是map数越多吞吐量越大。
覆盖目标如果一个map失败并且没有使用如果源和目标的大小不一样则进行覆盖像之前提到的,这不是"同步"操作。 执行覆盖的唯一标准是源文件和目标文件大小是否相同;如果不同,则源文件替换目标文件。 像 下面提到的,它也改变生成目标路径的语义, 用户使用要小心。
使用<urilist_uri> 作为源文件列表这等价于把所有文件名列在命令行中。 urilist_uri 列表应该是完整合法的URI。
更新和覆盖

这里给出一些 -update和 -overwrite的例子。 考虑一个从/foo/a 和 /foo/b 到 /bar/foo的拷贝,源路径包括:

    hdfs://master1:8020/foo/a 
    hdfs://master1:8020/foo/a/aa 
    hdfs://master1:8020/foo/a/ab 
    hdfs://master1:8020/foo/b 
    hdfs://master1:8020/foo/b/ba 
    hdfs://master1:8020/foo/b/ab

如果没设置-update或 -overwrite选项, 那么两个源都会映射到目标端的 /bar/foo/ab。 如果设置了这两个选项,每个源目录的内容都会和目标目录的 内容 做比较。distcp碰到这类冲突的情况会终止操作并退出。

默认情况下,/bar/foo/a 和 /bar/foo/b 目录都会被创建,所以并不会有冲突。

现在考虑一个使用-update合法的操作:
distcp -update hdfs://master1:8020/foo/a \ 
               hdfs://master1:8020/foo/b \ 
               hdfs://master2:8020/bar

其中源路径/大小:

    hdfs://master1:8020/foo/a 
    hdfs://master1:8020/foo/a/aa 32 
    hdfs://master1:8020/foo/a/ab 32 
    hdfs://master1:8020/foo/b 
    hdfs://master1:8020/foo/b/ba 64 
    hdfs://master1:8020/foo/b/bb 32

和目的路径/大小:

    hdfs://master2:8020/bar 
    hdfs://master2:8020/bar/aa 32 
    hdfs://master2:8020/bar/ba 32 
    hdfs://master2:8020/bar/bb 64

会产生:

    hdfs://master2:8020/bar 
    hdfs://master2:8020/bar/aa 32 
    hdfs://master2:8020/bar/ab 32 
    hdfs://master2:8020/bar/ba 64 
    hdfs://master2:8020/bar/bb 32

只有master2的aa文件没有被覆盖。如果指定了 -overwrite选项,所有文件都会被覆盖。

附录

Map数目

distcp会尝试着均分需要拷贝的内容,这样每个map拷贝差不多相等大小的内容。 但因为文件是最小的拷贝粒度,所以配置增加同时拷贝(如map)的数目不一定会增加实际同时拷贝的数目以及总吞吐量。

如果没使用-m选项,distcp会尝试在调度工作时指定map的数目 为 min (total_bytes / bytes.per.map, 20 * num_task_trackers), 其中bytes.per.map默认是256MB。

建议对于长时间运行或定期运行的作业,根据源和目标集群大小、拷贝数量大小以及带宽调整map的数目。

hadoop distcp -Ddistcp.bytes.per.map=1073741824 -Ddfs.client.Socket-timeout=240000000 -Dipc.client.connect.timeout=40000000 -i -update  hdfs://master1:8020/foo/a hdfs://master1:8020/foo/b hdfs://master2:8020/bar/foo

不同HDFS版本间的拷贝

对于不同Hadoop版本间的拷贝,用户应该使用HftpFileSystem。 这是一个只读文件系统,所以distcp必须运行在目标端集群上(更确切的说是在能够写入目标集群的TaskTracker上)。 源的格式是 hftp://<dfs.Http.address>/<path> (默认情况dfs.http.address是 <namenode>:50070)。

Map/Reduce和副效应

像前面提到的,map拷贝输入文件失败时,会带来一些副效应。

  • 除非使用了-i,任务产生的日志会被新的尝试替换掉。

  • 除非使用了-overwrite,文件被之前的map成功拷贝后当又一次执行拷贝时会被标记为 "被忽略"。

  • 如果map失败了mapred.map.max.attempts次,剩下的map任务会被终止(除非使用了-i)。

  • 如果mapred.speculative.execution被设置为 final和true,则拷贝的结果是未定义的。

感谢各位的阅读,以上就是“hadoop distcp是什么”的内容了,经过本文的学习后,相信大家对hadoop distcp是什么这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

--结束END--

本文标题: hadoop distcp是什么

本文链接: https://lsjlt.com/news/232317.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • hadoop distcp是什么
    这篇文章主要讲解了“hadoop distcp是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“hadoop distcp是什么”吧!概述distcp(分布式拷贝)是用于大规模集群内部和集...
    99+
    2023-06-03
  • hadoop distcp 需要开通的端口
    Hadoop distcp工具不需要开通额外的端口。然而,它需要访问源群集和目标群集的HDFS服务。默认情况下,HDFS使用的端口是...
    99+
    2023-10-11
    hadoop
  • hadoop核心是什么
    hadoop的核心是分布式文件系统hdfs和MapReduce,HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算,Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的...
    99+
    2024-04-02
  • hadoop是什么语言
    Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.Hadoop框架中最核心设计就是:HDFS和MapReduc...
    99+
    2023-05-31
    hadoop java doop
  • HADOOP概念是什么
    本篇内容主要讲解“HADOOP概念是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“HADOOP概念是什么”吧!大数据:指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需...
    99+
    2023-06-02
  • hadoop的核心是是什么
    Hadoop的核心是一个分布式存储和计算框架,它允许用户在大规模集群上存储和处理大量数据。Hadoop包括两个主要组件:Hadoop...
    99+
    2024-04-02
  • Hadoop Yarn是什么意思
    这篇文章将为大家详细讲解有关Hadoop Yarn是什么意思,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。 一. Hadoop Yarn 是什么 在古老的 Hadoo...
    99+
    2024-04-02
  • Hadoop的特点是什么
    本篇内容介绍了“Hadoop的特点是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!  Hadoop出现的原因:现在的我们,生活在数据大爆...
    99+
    2023-06-02
  • hadoop五大节点是什么
    这篇文章主要讲解了“hadoop五大节点是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“hadoop五大节点是什么”吧!NameNode(管理节点)   &...
    99+
    2023-06-02
  • Hadoop和Spark异同点是什么
    这篇“Hadoop和Spark异同点是什么”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Hadoop和Spark异同点是什么...
    99+
    2023-06-27
  • hadoop和spark的区别是什么
    这篇文章主要讲解了“hadoop和spark的区别是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“hadoop和spark的区别是什么”吧!主要是从四个方面对Hadoop和spark进行...
    99+
    2023-06-02
  • Hadoop的生态系统是什么
    这篇文章主要讲解了“Hadoop的生态系统是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Hadoop的生态系统是什么”吧!hadoop生态系统,意思就是以hadoop为平台的各种应用框...
    99+
    2023-06-02
  • hadoop中hdfs优缺点是什么
    这篇文章将为大家详细讲解有关hadoop中hdfs优缺点是什么,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。// 下载FileSystem fs = FileSys...
    99+
    2023-06-02
  • hadoop的读写流程是什么
    Hadoop的读写流程主要分为两部分:HDFS的读写流程和MapReduce的读写流程。 HDFS的读写流程: 写入流程:当客户...
    99+
    2024-03-04
    hadoop
  • Hadoop的容错机制是什么
    Hadoop的容错机制主要包括以下几个方面: 数据的冗余备份:Hadoop会将数据分片备份至多个数据节点上,确保数据的冗余性,一...
    99+
    2024-03-11
    Hadoop
  • Hadoop的工作原理是什么
    Hadoop的工作原理是基于分布式存储和计算的概念。Hadoop由两个核心组件组成:Hadoop分布式文件系统(HDFS)和MapR...
    99+
    2024-03-11
    Hadoop
  • Hadoop中NameNode的作用是什么
    Hadoop中的NameNode是HDFS(Hadoop分布式文件系统)的关键组件之一,它负责存储文件系统的命名空间(文件和目录结构...
    99+
    2024-03-11
    Hadoop
  • elasticsearch和hadoop的区别是什么
    Elasticsearch和Hadoop都是用于大数据处理的工具,但它们在功能和使用方式上有一些不同之处。 数据处理方式: H...
    99+
    2024-03-14
    hadoop elasticsearch
  • hadoop和hdfs的区别是什么
    Hadoop是一个开源的分布式计算框架,可以实现对大规模数据的存储和处理,而HDFS(Hadoop Distributed File...
    99+
    2024-03-14
    hadoop hdfs
  • hadoop中mapreduce的作用是什么
    MapReduce是Hadoop中的一种编程模型,用于处理大规模数据集的并行计算。它将数据分为若干个小块,并在集群中的多个节点上并行...
    99+
    2024-03-14
    hadoop
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作