Flume如何采集到HDFS

2023-06-02 22:06:53 395人浏览安东尼

摘要

这篇文章主要介绍Flume如何采集到hdfs，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！一、需求：采集指定文件的内容到HDFS技术选型：exec - memory - hdfsa1.sources =&n

这篇文章主要介绍Flume如何采集到hdfs，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

一、需求：

采集指定文件的内容到HDFS

技术选型：exec - memory - hdfs

a1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = execa1.sources.r1.command = tail -F /home/hadoop/data/data.log# Describe the sinka1.sinks.k1.type = hdfsa1.sinks.k1.hdfs.path = hdfs://192.168.0.129:9000/user/hadoop/flumea1.sinks.k1.hdfs.batchSize = 10            #10行产生新文件a1.sinks.k1.hdfs.fileType = DataStream     #压缩格式a1.sinks.k1.hdfs.writeFORMat = Text        #格式类型# Use a channel which buffers events in memorya1.channels.c1.type = memory# Bind the source and sink to the channela1.sources.r1.channels = c1a1.sinks.k1.channel = c1

启动：

./flume-ng agent \--name a1 \--conf $FLUME_HOME/conf \--conf-file /home/hadoop/script/flume/exec-memory-hdfs.conf \-Dflume.root.logger=INFO,console \-Dflume.monitoring.type=Http \-Dflume.monitoring.port=34343

添加测试数据：

[hadoop@hadoop001 data]$ touch data.log[hadoop@hadoop001 data]$ echo test >> data.log[hadoop@hadoop001 data]$ echo test >> data.log[hadoop@hadoop001 data]$ echo test >> data.log[hadoop@hadoop001 data]$ echo test >> data.log[hadoop@hadoop001 data]$ echo test >> data.log

检查HDFS：

[hadoop@hadoop001 flume]$ hdfs dfs -text hdfs://192.168.0.129:9000/user/hadoop/flume/*18/08/09 20:59:02 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicabletesttesttesttesttest

二、需求：

采集指定文件夹的内容到(HDFS或者控制台)

==》文件夹下文件不能修改切不能重名

==》处理完当前文件添加.COMPLETED标识

a1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = spooldira1.sources.r1.spoolDir = /home/hadoop/data/a1.sources.r1.fileHeader = true# Describe the sinka1.sinks.k1.type = logger# Use a channel which buffers events in memorya1.channels.c1.type = memory# Bind the source and sink to the channela1.sources.r1.channels = c1a1.sinks.k1.channel = c1

三、需求：(生产使用，记录偏移量)

采集指定文件夹和文件内容到(控制台或者HDFS)

a1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = TAILDIRa1.sources.r1.channels = c1#记录偏移量，重启续传a1.sources.r1.positionFile = /home/hadoop/script/flume/taildir_position.JSONa1.sources.r1.filegroups = f1 f2#监控指定log文件a1.sources.r1.filegroups.f1 =/home/hadoop/data/example.loga1.sources.r1.headers.f1.headerKey1 = value1#监控文加下的所有log*文件夹和内容a1.sources.r1.filegroups.f2 = /home/hadoop/data/test/.*log.*a1.sources.r1.headers.f2.headerKey1 = value2a1.sources.r1.headers.f2.headerKey2 = value2-2# 控制台输出a1.sinks.k1.type = logger# Use a channel which buffers events in memorya1.channels.c1.type = memorya1.channels.c1.capacity = 1000a1.channels.c1.transactionCapacity = 100# Bind the source and sink to the channela1.sources.r1.channels = c1a1.sinks.k1.channel = c1

启动：

./flume-ng agent \--name a1 \--conf $FLUME_HOME/conf \--conf-file /home/hadoop/script/flume/taildir-memory-logger.conf \-Dflume.root.logger=INFO,console

记录偏移量:

[hadoop@hadoop001 flume]$ cat taildir_position.json

[{"inode":679982,"pos":14,"file":"/home/hadoop/data/example.log"}

{"inode":679984,"pos":0,"file":"/home/hadoop/data/test/log1.log"}]

以上是“Flume如何采集到HDFS”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注编程网精选频道！

--结束END--

本文标题: Flume如何采集到HDFS

本文链接: https://lsjlt.com/news/231560.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Flume如何采集到HDFS

这篇文章主要介绍Flume如何采集到HDFS，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！一、需求：采集指定文件的内容到HDFS技术选型：exec - memory - hdfsa1.sources =&n...

99+

2023-06-02
RDBMS数据定时采集到HDFS

[toc] RDBMS数据定时采集到HDFS 前言其实并不难，就是使用sqoop定时从MySQL中导入到HDFS中，主要是sqoop命令的使用和Linux脚本的操作这些知识。场景在我们的场景中，需要...

99+

2024-04-02
如何进行Flume Agent的3台收集+1台聚合到hdfs的搭建

本篇文章给大家分享的是有关如何进行Flume Agent的3台收集+1台聚合到hdfs的搭建，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。【log收集】:机器名称 &...

99+

2023-06-03
Flume采集数据时在HDFS上产生大量小文件的问题怎么办

这篇文章主要为大家展示了“Flume采集数据时在HDFS上产生大量小文件的问题怎么办”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Flume采集数据时在HDFS上产生大量小文件的问题怎么办”这篇...

99+

2023-06-02
Flume如何收集日志到本地目录

本篇内容主要讲解“Flume如何收集日志到本地目录”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Flume如何收集日志到本地目录”吧!例子场景描述：将tomcat的日志...

99+

2023-06-02
Flume的Source怎么实现采集数据到通过内存输出到控制台

本篇内容介绍了“Flume的Source怎么实现采集数据到通过内存输出到控制台”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！需求： ...

99+

2023-06-02
如何从指定的网络端口上采集日志到控制台输出和HDFS

小编给大家分享一下如何从指定的网络端口上采集日志到控制台输出和HDFS，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！需求1：从指定的网络端口上采集日志到控制台输出和HDFS负载算法故障转移：可以指定优先级，数字越大越优先a...

99+

2023-06-02
怎么配置Flume实现数据采集和传输

要配置Flume实现数据采集和传输，首先需要安装和配置Flume Agent。以下是一个简单的步骤：下载并安装Apache Fl...

99+

2024-04-02
filebeat采集不到日志如何解决

以下是一些可能的解决方法：1. 确保Filebeat配置文件正确设置了输入源和输出目标。检查`filebeat.yml`文件中的`p...

99+

2023-10-11

filebeat
如何配置Flume来收集数据

要配置Flume来收集数据，首先需要安装并配置Flume agent。以下是一些基本的步骤：在Flume的conf目录中创建一...

99+

2024-03-07

Flume
深入探索Apache Flume：大数据领域的数据采集神器

Apache Flume是一个分布式、可靠的、可扩展的大数据采集工具，被广泛应用于大数据领域。它能够高效地将多种数据源的数据收集、聚...

99+

2023-10-11

大数据
Hue3.9如何搭建集成HDFS和Hive

这篇文章给大家分享的是有关Hue3.9如何搭建集成HDFS和Hive的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。运行环境：CentOS 6.5hadoop-2.6.0-cdh6.7.0hadoop-2.6.0-...

99+

2023-06-02
HDFS如何与云存储服务集成

HDFS可以与云存储服务进行集成，以扩展其存储容量和灵活性。以下是一些与云存储服务集成HDFS的方法：使用Hadoop的S3A文...

99+

2024-05-08

HDFS
php如何实现禁止采集

本文操作环境：Windows7系统、PHP7.1、Dell G3。php如何实现禁止采集？PHP防采集方法代码 1 <php 2 10 $HTTP_REFERER = $_SERVER["H...

99+

2021-02-20

php
Python如何采集基金数据

Python如何采集基金数据，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。案例实现流程思路分析:需要什么数据需要的数据在哪里代码实现：发送请求获取数据解析数据多页爬取保存数...

99+

2023-06-22
labview如何自动开始采集

要在LabVIEW中自动开始采集，您可以使用以下步骤：1. 创建一个新的LabVIEW项目或打开现有的项目。2. 在项目中创建或打开...

99+

2023-09-15

labview
Flume如何部署

这篇文章主要讲解了“Flume如何部署”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Flume如何部署”吧！ Flume简介Flume是Cloudera提供的一个高可用、高可靠、分...

99+

2023-06-02
小程序如何实现采集录音并上传到后台

这篇文章主要介绍小程序如何实现采集录音并上传到后台，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！具体内容如下demo.wxml<view> <butto...

99+

2024-04-02
如何使用ogg将Oracle数据传输到flume刷到kafka

本篇内容主要讲解“如何使用ogg将Oracle数据传输到flume刷到kafka”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“如何使用ogg将Oracle数据传输到flume刷到kafka”吧!...

99+

2023-06-02
如何修改AWR默认收集采集信息

这篇文章主要为大家展示了“如何修改AWR默认收集采集信息”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“如何修改AWR默认收集采集信息”这篇文章吧。 ...

99+

2024-04-02