返回顶部
首页 > 资讯 > 数据库 >RDBMS数据定时采集到HDFS
  • 529
分享到

RDBMS数据定时采集到HDFS

2024-04-02 19:04:59 529人浏览 八月长安
摘要

[toc] RDBMS数据定时采集到hdfs 前言 其实并不难,就是使用sqoop定时从Mysql中导入到HDFS中,主要是sqoop命令的使用和linux脚本的操作这些知识。 场景 在我们的场景中,需要

[toc]


RDBMS数据定时采集到hdfs

前言

其实并不难,就是使用sqoop定时从Mysql中导入到HDFS中,主要是sqoop命令的使用和linux脚本的操作这些知识。

场景

在我们的场景中,需要每天将数据库中新增的用户数据采集到HDFS中,数据库中有time字段,
用以标识该用户信息录入数据库的时间,所以下面的数据导入操作也是依赖于这个字段。

数据准备

mysql数据库中准备如下数据:

##构建sql的操作
create DATABASE IF NOT EXISTS db_log_statics;
use db_log_statics;
CREATE TABLE `t_user_info` (
  `id` bigint(20) NOT NULL,
  `name` varchar(20) COLLATE utf8_bin DEFAULT NULL,
  `address` varchar(20) COLLATE utf8_bin DEFAULT NULL,
  `time` date DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;

insert into `t_user_info` (`id`, `name`, `address`, `time`) values('1','张三','北京朝阳','2018-04-05');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('2','李四','河南洛阳','2018-04-05');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('3','王五','广东邵阳','2018-04-05');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('4','赵六','山东德州','2018-04-07');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('5','周七','山东青岛','2018-04-07');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('6','魏八','福建厦门','2018-04-07');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('7','王二麻子','山西五台山','2018-04-06');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('8','王大锤','陕西榆林','2018-04-06');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('9','燕小六','云南大理','2018-04-06');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('10','雷布斯','湖北仙桃','2018-04-06');

脚本编写

exportUser2HDFS.sh

#!/bin/env bash

# shell中引用外部文件的变量
source /home/uplooking/shells/db-mysql.conf

# source 系统的环境变量
source ~/.bash_profile
# 日期变量
today=`date +%Y-%m-%d`
yesterday=`date -d"1 day aGo" +%Y-%m-%d`

/home/uplooking/app/sqoop/bin/sqoop import \
--connect jdbc:mysql://${stat_ipaddr}:${stat_port}/${stat_dbname} \
--username ${stat_uname} \
--passWord ${stat_upwd} \
--target-dir hdfs://ns1/input/t_user/${yesterday} \
--query "SELECT id, name, address, time FROM t_user_info WHERE time >='${yesterday}' AND time < '${today}' AND \$CONDITioNS" \
-m 1 --fields-terminated-by "," --split-by ","

db-mysql.conf

#统计库数据库ip地址
stat_ipaddr=192.168.43.116
#统计库端口
stat_port=3306
#统计库名称
stat_dbname=db_log_statics
#统计库用户名
stat_uname=root
#统计库密码
stat_upwd=root

编写定时任务

crontab -e

# 要求每天凌晨2点10分同步数据
10 2 * * * /bin/bash /home/uplooking/shells/exportUser2HDFS.sh >/dev/null 2>&1 &

需要注意的是,如果在Notepad++中远程编辑shell脚本文件,在Linux中是无法执行的,原因为,此时在Linux中用vim查看文件格式:set ff,会发现为:filefORMat=dos,而正常我们在Linux中编辑的文件应该为:fileformat=unix,所以解决方案为:set ff=unix

您可能感兴趣的文档:

--结束END--

本文标题: RDBMS数据定时采集到HDFS

本文链接: https://lsjlt.com/news/37572.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • RDBMS数据定时采集到HDFS
    [toc] RDBMS数据定时采集到HDFS 前言 其实并不难,就是使用sqoop定时从MySQL中导入到HDFS中,主要是sqoop命令的使用和Linux脚本的操作这些知识。 场景 在我们的场景中,需要...
    99+
    2024-04-02
  • Flume如何采集到HDFS
    这篇文章主要介绍Flume如何采集到HDFS,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、需求:采集指定文件的内容到HDFS技术选型:exec - memory - hdfsa1.sources =&n...
    99+
    2023-06-02
  • 简数采集器数据发布到PHPWind
    简数采集器支持采集数据自动批量发布到PHPWind CMS系统。使用步骤如下: 1. 安装PHPWind发布插件(在PHPWind后台安装)          1)下载PHPWind采集发布插件下载地址:            PHPWi...
    99+
    2023-10-10
    大数据 爬虫 经验分享 内容运营 php
  • 简数采集器数据发布到PHPCMS
    简数采集器支持将采集数据自动批量发布到PHPCMS系统。使用步骤如下: 目录 1. 安装PHPCMS发布插件(在PHPCMS后台上传安装) 2. 创建发送目标 (在简数系统控制台) 3. 采集数据发布到PHPCMS 1. 安装PHPCM...
    99+
    2023-09-14
    经验分享 大数据 内容运营 爬虫 php
  • Flume采集数据时在HDFS上产生大量小文件的问题怎么办
    这篇文章主要为大家展示了“Flume采集数据时在HDFS上产生大量小文件的问题怎么办”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Flume采集数据时在HDFS上产生大量小文件的问题怎么办”这篇...
    99+
    2023-06-02
  • 数据采集 - Marvin
                     链接:https://bdcc.bigdataedu.org/block/48(需账号登录)...
    99+
    2016-08-03
    数据采集 - Marvin
  • 数据采集要用到代理IP吗
    这篇文章主要介绍“数据采集要用到代理IP吗”,在日常操作中,相信很多人在数据采集要用到代理IP吗问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”数据采集要用到代理IP吗”的疑惑有所帮助!接下来,请跟着小编一起来...
    99+
    2023-06-25
  • sqlserver实时数据采集怎么实现
    在 SQL Server 中实现实时数据采集可以通过以下几种方法来实现: 使用 Change Data Capture (CDC...
    99+
    2024-04-09
    SQLServer
  • 如何从指定的网络端口上采集日志到控制台输出和HDFS
    小编给大家分享一下如何从指定的网络端口上采集日志到控制台输出和HDFS,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!需求1:从指定的网络端口上采集日志到控制台输出和HDFS负载算法故障转移:可以指定优先级,数字越大越优先a...
    99+
    2023-06-02
  • 数据采集实战(一)-
    概述 最近在学习python的各种数据分析库,为了尝试各种库中各种分析算法的效果,陆陆续续爬取了一些真实的数据来。 顺便也练习练习爬虫,踩了不少坑,后续将采集的经验逐步分享出来,希望能给后来者一些参考,也希望能够得到先驱者的指点! 采集工...
    99+
    2017-02-11
    数据采集实战(一)-
  • 数据采集实战(二)-
    1. 概述 京粉(https://union.jd.com/)是京东联盟下的网站,通过分享其中的商品链接可以赚取佣金,类似淘客联盟。 采集京粉的商品,既可以练习 puppeteer的使用,平时想在京东购物时,也能用得上(采集看看...
    99+
    2015-01-09
    数据采集实战(二)-
  • 数据采集实战(三)-
    1. 概述 王者荣耀是一直都挺喜欢的一个手游,玩了好几年,最近一段开始喜欢看比赛,所以想着采集点数据看看各个战队或者选手的情况。 顺便也练习练习 puppeteer 的使用。 数据来源于:尚牛电竞 。 2. 采集流程 王者荣耀最近正在进行...
    99+
    2020-07-29
    数据采集实战(三)-
  • 数据采集实战(四)-
    1. 概述 前段时间在看一本很多人推荐的线性代数教材《线性代数应该这样学》第三版,这一版每个章节都有大量的习题。 官方网站上虽然按照章节提供了习题的答案,一来因为网站是国外的,访问不流畅,二来答案中还夹杂着广告,影响查看。 所以,想试着将...
    99+
    2019-04-29
    数据采集实战(四)-
  • 数据采集实战(五)-
    1. 概述 现在学校越来越重视孩子课外知识的掌握,给孩子挑选课外书一般都是参考学校或者家长之间的推荐。 有时,也会想看看在儿童阶段,目前到底流行的是些什么样的书。 ​ 于是,就简单写了这个小爬虫,采集了畅销童书的前20名。 要想采集更多的...
    99+
    2015-05-29
    数据采集实战(五)-
  • 数据采集与存储
    1.2 数据采集技术的功能及特点 数据采集技术是指通过各种手段和工具,从各种数据源中采集、提取和处理数据的过程。数据采集技术的主要功能包括: 数据源的识别:通过各种手段找到需要采集数据的来源,包括网站...
    99+
    2023-09-15
    python mysql spark
  • 亚马逊数据采集
    爬虫技术:通过网页抓取、HTTP请求、DNS解析等技术手段来获取网站数据。 用户行为数据:通过用户访问网站的行为记录来获取用户信息,包括访问时间、访问页面、跳出率、购买记录等。 第三方API接口:通过第三方API接口,可以获取网站的用户信...
    99+
    2023-10-27
    亚马逊 数据采集
  • 如何设置阿里云数据库采集数据时间
    阿里云数据库是阿里云提供的一种高性能、高可用的数据库服务,它可以满足不同业务场景下的数据存储和处理需求。然而,为了保证数据的准确性和完整性,我们需要设置阿里云数据库采集数据的时间。本文将详细说明如何设置阿里云数据库采集数据时间。 一、如何设...
    99+
    2023-10-29
    阿里 如何设置 数据库
  • Android实现语音数据实时采集、播放
    最近做的项目是和语音实时采集并发送,对方实时接收并播放相关,下面记录下实现的核心代码。 很多Android开发者应该知道android有个MediaRecorder对象和Me...
    99+
    2022-06-06
    语音数据 数据 Android
  • 数据采集时需要注意哪些问题
    本篇文章给大家分享的是有关数据采集时需要注意哪些问题,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1、线下调研紧紧围绕研究主题和目的。题目易读,易理解,一般。充分考虑被调人的特...
    99+
    2023-06-14
  • php实现大数据采集
    随着互联网的不断发展,数据采集成为了人们获取信息的重要手段。然而,随着数据量的不断增加,传统的手动采集方法已经无法满足需求,因此,大数据采集技术成为了关键。在这里,我们来介绍一下php实现大数据采集的方法。一、 数据采集流程数据采集流程通常...
    99+
    2023-05-24
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作