返回顶部
首页 > 资讯 > 数据库 >Flink入门(一)——Apache Flink介绍
  • 1110
分享到

Flink入门(一)——Apache Flink介绍

Flink入门(一)——ApacheFlink介绍 2019-02-14 05:02:51 1110人浏览 绘本
摘要

Apache flink是什么? ​ 在当代数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。随着雅虎对hadoop的开源,越来越多的大数据处理技术开始涌入

file

Apache flink是什么?

​ 在当代数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。随着雅虎对hadoop开源,越来越多的大数据处理技术开始涌入人们的视线,例如目前比较流行的大数据处理引擎Apache spark,基本上已经取代了mapReduce成为当前大数据处理的标准。但是随着数据的不断增长,新技术的不断发展,人们逐渐意识到对实时数据处理的重要性。相对于传统的数据处理模式,流式数据处理有着更高的处理效率和成本控制能力。Flink 就是近年来在开源社区不断发展的技术中的能够同时支持高吞吐、低延迟、高性能分布式处理框架

file

数据架构的演变

file

如图所示,传统的单体数据架构最大的特点便是 集中式数据存储,大多数将架构分为计算层和存储层。

单体架构的初期效率很高,但是随着时间的推移,业务越来越多,系统逐渐变得很大,越来越难以维护和升级,数据库是唯一的准确数据源,每个应用都需要访问数据库来获取对应的数据,如果数据库发生改变或者出现问题,则将对整个业务系统产生影响。

后来随着微服务架构的出现,企业开始采用微服务作为企业业务系统的架构体系。微服务架构的核心思想是:一个应用是由多个小的、相互独立的微服务组成,这些服务运行在自己的进程中,开发和发布都没有依赖。不同的服务能依据不同的业务需求,构建的不同的技术架构之上,能够聚焦在有限的业务功能。 如图

file

微服务架构

起初数据仓库主要还是构建在关系型数据库之上。例如oracleMysql等数据库,但是随着企业数据量的增长,关系型数据库已经无法支撑大规模数据集的存储和分析,因为越来越多的企业开始选择基于Hadoop构建企业级大数据平台。同时众多的sql_on_hadhoop上构建不同类型的数据应用变得简单而高效。

在构建企业数据仓库的过程中,数据往往都是周期性的从业务系统中同步到大数据平台,完成一系列的ETL转换动作之后,最终形成了数据集市等应用。但是对于一些时间要求比较高的应用,例如实时报表统计,则必须有非常低的延时展示统计结果,为此业界提出了一套Lambda架构方案来处理不同类型的数据。

file

大数据lambada架构

大数据平台中包含批量计算的Batch Layer和实时计算的Speed Layer,通过在一套平台中将批计算和流计算整合在一起,例如使用Hadoop MapReduce进行批量数据的处理,使用Apache StORM进行实时数据的处理。这种架构在一定程度上解决了不同计算类型的问题,但是带来的问题是框架太多会导致平台复杂度过高、运维成本高等。在一套资源管理平台中管理不同类型的计算框架使用也是非常困难的事情。

后来随着Apache Spark的分布式内存处理框架的出现,提出了将数据切分成微批的处理模式进行流式数据处理,从而能够在一套计算框架内完成批量计算和流式计算。但因为Spark本身是基于批处理模式的原因,并不能完美且高效的处理原生的数据流,因此对流式计算支持的相对较弱,可以说Spark的出现本质上是在一定程度上对Hadoop架构进行了一定的升级和优化

有状态流计算架构

数据产生的本质,其实是一条条真实存在的事件,前面提到的不同的架构其实都是在一定程度违背了这种本质,需要通过在一定时延的情况下对业务数据进行处理,然后得到基于业务数据统计的准确结果。实际上,基于流式计算技术局限性,我们很难再数据产生的过程中进行计算并直接产生统计结果,因为这不仅对系统有非常高的要求,还必须要满足高性能、高吞吐、低延时等众多目标。

file
基于有状态计算的方式最大的优势是不需要将原始数据重新从外部存储中拿出来,从而进行全量计算,因为这种计算方式的代价可能是非常高的。

Flink通过实现Google Dataflow流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架。同时Flink支持高度容错的状态管理,防止状态在计算过程中因为系统异常而出现丢失,Flink周期性地通过分布式快照技术Checkpoints实现状态的持久化维护,使得即使在系统停机或者异常的情况下都能计算出正确的结果。

Flink的具体优势有以下几点:

  1. 同时支持高吞吐、低延迟、高性能
    Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架。像Apache Spark也只能兼顾高吞吐和高性能特性,主要因为在Spark Streaming流式计算中无法做到低延迟保障;而流式计算框架Apache Storm只能支持低延迟和高性能特性,但是无法满足高吞吐的要求。而满足高吞吐、低延迟、高性能这三个目标对分布式流式计算框架来说是非常重要的。

  2. 支持事件时间(Event Time)概念
    在流式计算领域中,窗口计算的地位举足轻重,但目前大多数框架窗口计算采用的都是系统时间(Process Time),也是事件传输到计算框架处理时,系统主机的当前时间。Flink能够支持基于事件时间(Event Time)语义进行窗口计算,也就是使用事件产生的时间,这种基于事件驱动的机制使得事件即使乱序到达,流系统也能够计算出精确的结果,保持了事件原本产生时的时序性,尽可能避免网络传输或硬件系统的影响。

  3. 支持有状态计算
    Flink在1.4版本中实现了状态管理,所谓状态就是在流式计算过程中将算子的中间结果数据保存在内存或者文件系统中,等下一个事件进入算子后可以从之前的状态中获取中间结果中计算当前的结果,从而无须每次都基于全部的原始数据来统计结果,这种方式极大地提升了系统的性能,并降低了数据计算过程的资源消耗。对于数据量大且运算逻辑非常复杂的流式计算场景,有状态计算发挥了非常重要的作用。

  4. 支持高度灵活的窗口(windows)操作

    在流处理应用中,数据是连续不断的,需要通过窗口的方式对流数据进行一定范围的聚合计算,例如统计在过去的1分钟内有多少用户点击某一网页,在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行再计算。Flink将窗口划分为基于Time、Count、Session,以及Data-driven等类型的窗口操作,窗口可以用灵活的触发条件定制化来达到对复杂的流传输模式的支持,用户可以定义不同的窗口触发机制来满足不同的需求。

  5. 基于轻量级分布式快照(Snapshot)实现的容错
    Flink能够分布式运行在上千个节点上,将一个大型计算任务的流程拆解成小的计算过程,然后将tesk分布到并行节点上进行处理。在任务执行过程中,能够自动发现事件处理过程中的错误而导致数据不一致的问题,比如:节点宕机、网路传输问题,或是由于用户因为升级或修复问题而导致计算服务重启等。在这些情况下,通过基于分布式快照技术的Checkpoints,将执行过程中的状态信息进行持久化存储,一旦任务出现异常停止,Flink就能够从Checkpoints中进行任务的自动恢复,以确保数据在处理过程中的一致性。

  6. 基于JVM实现独立的内存管理
    内存管理是所有计算框架需要重点考虑的部分,尤其对于计算量比较大的计算场景,数据在内存中该如何进行管理显得至关重要。针对内存管理,Flink实现了自身管理内存的机制,尽可能减少JVM GC对系统的影响。另外,Flink通过序列化/反序列化方法将所有的数据对象转换成二进制在内存中存储,降低数据存储的大小的同时,能够更加有效地对内存空间进行利用,降低GC带来的性能下降或任务异常的风险,因此Flink较其他分布式处理的框架会显得更加稳定,不会因为JVM GC等问题而影响整个应用的运行。

  7. Save Points(保存点)
    对于7*24小时运行的流式应用,数据源源不断地接入,在一段时间内应用的终止有可能导致数据的丢失或者计算结果的不准确,例如进行集群版本的升级、停机运维操作等操作。值得一提的是,Flink通过Save Points技术将任务执行的快照保存在存储介质上,当任务重启的时候可以直接从事先保存的Save Points恢复原有的计算状态,使得任务继续按照停机之前的状态运行,Save Points技术可以让用户更好地管理和运维实时流式应用。

更多实时计算,Flink,kafka,ES等相关技术博文,欢迎关注实时流式计算

file

本文由博客一文多发平台 OpenWrite 发布!

您可能感兴趣的文档:

--结束END--

本文标题: Flink入门(一)——Apache Flink介绍

本文链接: https://lsjlt.com/news/2335.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Flink入门(一)——Apache Flink介绍
    Apache Flink是什么? ​ 在当代数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。随着雅虎对hadoop的开源,越来越多的大数据处理技术开始涌入...
    99+
    2019-02-14
    Flink入门(一)——Apache Flink介绍
  • Apache Flink介绍
    Apache Flink介绍 俗话说知子莫若父,要想了解一门技术就要看官方的介绍。Flink官网对Flink的介绍是这样的: Apache Flink is a framework and distributed processi...
    99+
    2018-10-20
    Apache Flink介绍
  • Flink的详细介绍
    这篇文章主要介绍“Flink的详细介绍”,在日常操作中,相信很多人在Flink的详细介绍问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Flink的详细介绍”的疑惑有所帮助!接...
    99+
    2024-04-02
  • 「Flink」RocksDB介绍以及Flink对RocksDB的支持
    RocksDB介绍RocksDB简介RocksDB是基于C++语言编写的嵌入式KV存储引擎,它不是一个分布式的DB,而是一个高效、高性能、单点的数据库引擎。它是由Facebook基于Google开源的kv存储LevelDB开发开发...
    99+
    2015-12-22
    「Flink」RocksDB介绍以及Flink对RocksDB的支持
  • PHP入门指南:PHP和Flink
    PHP是一种流行的开源服务器端脚本语言,建议初学者通过学习PHP入门指南,来了解PHP和Flink之间的关联。PHP是一种脚本语言,专门用于Web开发。它常用于动态的网页编程,但也可以在命令行方法进行编写。此外,开发人员可以使用PHP构建应...
    99+
    2023-05-20
    PHP flink 入门指南
  • Flink入门(五)——DataSet Api编程指南
    Apache Flink Apache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天,Flink正在飞速发展。由于性能的优势和兼顾批处理,流处理的特性,Flink可能正在颠覆整个大数据的生态...
    99+
    2020-07-01
    Flink入门(五)——DataSet Api编程指南
  • Flink入门级应用域名处理示例
    目录概述算子FlatMapKeyByReduce连接socket测试连接kafka正式测试打包上传服务器概述 最近做了一个小任务,要使用Flink处理域名数据,在4GB的域名文档中求...
    99+
    2024-04-02
  • GNS3入门介绍
    第一次遇到GNS3,对它并没有多大的兴趣,因为思科模拟器用过几个,觉得都差不多,再牛的模拟器应该也牛不过cisco官方的packet tracer吧,在做备份IOS实验时发现好像目前只有这个名不见经传的GNS3有这个能力,让我不觉的多看了它...
    99+
    2023-01-31
    入门
  • 00-InfluxDB入门介绍
    01-InfluxDB入门介绍 02-influxdb的权限管理 03-Influxdb的备份与恢复 介绍 influxdb是使用GO编写的基于时间序列的数据库,用于存储大量带有时间戳的数...
    99+
    2024-04-02
  • Python入门教程(一)Python简单介绍
    目录什么是 Python?Python 可以做什么?Python可以做:为何选择 Python?Python 语法与其他编程语言比较关于偏见什么是 Python? 自20世纪90年代...
    99+
    2023-05-14
    Python入门 Python介绍
  • Apache Flink结合Apache Kafka实现端到端的一致性语义是怎样的
    本篇文章为大家展示了Apache Flink结合Apache Kafka实现端到端的一致性语义是怎样的,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。接下来,我们进一步介绍flink的这个特性:Fli...
    99+
    2023-06-19
  • MongoDB入门(介绍、安装)
    一.什么是MongoDB? MongoDB is a document database with the scalability and flexibility that you want with the querying a...
    99+
    2017-08-27
    MongoDB入门(介绍 安装)
  • typeScript入门基础介绍
    目录一、安装 TS二、Vscode 自动编译 ts三、入门 TS基础数据类型接口类TS 的特点: 始于 javaScript 归于 javaScript 。强大的类型系统。先进的 j...
    99+
    2024-04-02
  • python入门之python介绍
    python基础之Python优点    1.简单:Python是一种代表简单主义思想的语言。阅读一个良好的Python程序就感觉像是在读英语一样。它使你能够专注于解决问题而不是去搞明白语言本身。    2.易学:Python极其容易上手,...
    99+
    2023-01-31
    入门 python
  • Flink cdc 介绍及使用 FlinkCDC读取mysql 及 jdbc 连接参数配置
    Flink cdc 介绍及使用 FlinkCDC读取mysql 及 jdbc 连接参数配置、官方案例 1. Flink cdc 介绍2. 常见cdc开源方案3. Flink cdc 使用案例3...
    99+
    2023-09-16
    mysql flink java 大数据
  • Apache Flink 为什么能够成为新一代大数据计算引擎?
    众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会。如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速度与灵活性。 大数据时代对人类的数据驾...
    99+
    2020-08-14
    Apache Flink 为什么能够成为新一代大数据计算引擎?
  • Pygame transform模块入门介绍
    目录简介函数说明简介 pygame模块用于变换Surface,Surface变换是一种移动或调整像素大小的操作。所有这些函数都是对一个Surface进行操作, 并将结果返回一个新的S...
    99+
    2024-04-02
  • EVE-NG简单入门介绍
    此篇文章简单的介绍下模拟器EVE-NG的使用,具体包括Dynamips设备导入与运行,IOL设备的导入与运行,QEMU设备的导入与运行,客户端软件的安装,物理网络与虚拟网络的结合等。一.导入镜像Dynamips是由法国人Chris Fill...
    99+
    2023-06-05
  • MyBatis入门介绍(超简单)
    MyBatis 简介MyBatis的前身叫iBatis,本是apache的一个开源项目, 2010年这个项目由apache software foundation 迁移到了google code,并且改名为MyBatis。MyBatis是支...
    99+
    2023-05-31
    mybatis 入门 batis
  • javacv从入门到精通——第一章:javacv介绍
    了解javacv的历史和发展背景 JavaCV是一个开源的Java框架,它提供了基于Java的接口,用于访问各种计算机视觉库和工具包,如OpenCV、FFmpeg等。JavaCV旨在为Java开发人员提供快速、简单和可靠的图像和视频处理能...
    99+
    2023-09-02
    java opencv 语音识别 视频编解码 音视频 Powered by 金山文档
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作