返回顶部
首页 > 资讯 > 数据库 >Apache Flink介绍
  • 866
分享到

Apache Flink介绍

ApacheFlink介绍 2018-10-20 16:10:56 866人浏览 才女
摘要

Apache flink介绍 俗话说知子莫若父,要想了解一门技术就要看官方的介绍。Flink官网对Flink的介绍是这样的: Apache Flink is a framework and distributed processi

Apache Flink介绍

Apache flink介绍

俗话说知子莫若父,要想了解一门技术就要看官方的介绍。Flink官网对Flink的介绍是这样的:

Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perfORM computations at in-memory speed and at any scale.

额...看不懂。翻译过来就是:

apache flink是一个用于在无界和有界数据流上进行有状态计算的分布式处理框架和引擎。Flink被设计成可以在所有常见的集群环境中运行,以内存速度和任何规模执行计算。

似乎太笼统了。接下来我们就深入的了解一下Flink究竟是一个什么鬼。

数据架构的演变

要想了解Flink我们还得从分布式计算的历史讲起,所以历史课时间到。

在国外一些社区,有很多人讲计算引擎分为了四代,虽然这并不能代表所有人的观点,但是我们可以在这些分代中看出计算引擎的区别。

首先第一代的计算引擎,无疑就是hadoop承载的mapReduce了。相信了解大数据的童鞋对MapReduce都不会陌生,它将计算分成两部分,一部分是Map阶段,一部分是Reduce阶段。这对于上层应用来说就不得不拆分算法。如果是较为复杂的计算,甚至于不得不实现多个Job的串联,例如迭代计算。

由于第一代计算引擎的弊端,催生了支持DAG ( Directed Acyclic Graph)框架的诞生。支持DAG框架的计算引擎被划分为了第二代计算引擎,比如Tez或Oozie。第二代计算引擎执行的大多数是批量任务。

前两代的计算引擎都是延迟较为严重,没法满足实时性要求比较高的需求。而以spark为代表的第三代计算引擎很好的解决了这一问题。第三代计算引擎的特点主要是 Job 内部的 DAG 支持(不跨越Job),以及强调的实时计算。这里强调一点,这里的实时计算实质上是微批处理,并不是真正意义上的实时处理。

接下来的第四代计算引擎实现了真正意义上的实时处理,这就是我们今天介绍的Flink。当然Flink除了能够实现数据的实时处理外也很好的支持了批处理和DAG的运算。

迭代计算性能对比测试:Flink > Spark > Hadoop(MR)。迭代次数越多越明显,性能上Flink优于Spark和Hadoop最主要的原因是Flink支持增量迭代,具有对迭代自动优化的功能。

两种数据集和两种处理方式

有界数据与无界数据

Flink最大的特色就是它的流式处理方式。而在介绍Flink的流式处理我们要先了解一下有界数据和无界数据,好,上图:

有界数据流(bounded stream):具有定义的开始点和结束点。

无界数据流(unbounded stream):有一个起点,但没有定义的终点。

无界数据集包括但不限于如下

  • 终端用户与APP或WEB交互的数据
  • 物理传感器采集的数据
  • 金融市场行情
  • 系统或机器日志

就现实来说,在Flink出现之前由于处理方式的局限性,我们通常会将一些无界数据流人为的切分成有界数据流,然后在基于有界数据流进行处理。

流处理与批处理

流处理(Streaming):只要有数据生成则马上执行计算程序

批处理(Batch):在有限的时间内执行并运行到完成的处理,完成后释放计算资源

由此可见Spark Streaming其实是批处理。

我们可以使用任一类型的处理模型来处理任一类型的数据集,但不一定是最优的方案。事实上在以前我们一直在用批处理来处理无界数据集,甚至是现在依然在用。

多样的部署方式

Flink提供了多种集群搭建方式:

  • standalone cluster模式:不依赖于任何第三方资源管理器,Flink可以作为独立的集群运行
  • 基于第三方资源管理器:Flink与所有常见的集群资源管理器(如Hadoop YARN,Apache Mesos和kubernetes集成)
  • Local模式:顾名思义,就是本地单机模式。

支持任意数据规模

Flink与所有的大数据计算框架一样,支持横向扩展。也就是说,理论上Flink可以支持无限量的CPU、内存、磁盘和网络IO。

您可能感兴趣的文档:

--结束END--

本文标题: Apache Flink介绍

本文链接: https://lsjlt.com/news/7144.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Apache Flink介绍
    Apache Flink介绍 俗话说知子莫若父,要想了解一门技术就要看官方的介绍。Flink官网对Flink的介绍是这样的: Apache Flink is a framework and distributed processi...
    99+
    2018-10-20
    Apache Flink介绍
  • Flink入门(一)——Apache Flink介绍
    Apache Flink是什么? ​ 在当代数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。随着雅虎对hadoop的开源,越来越多的大数据处理技术开始涌入...
    99+
    2019-02-14
    Flink入门(一)——Apache Flink介绍
  • Flink的详细介绍
    这篇文章主要介绍“Flink的详细介绍”,在日常操作中,相信很多人在Flink的详细介绍问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Flink的详细介绍”的疑惑有所帮助!接...
    99+
    2024-04-02
  • 「Flink」RocksDB介绍以及Flink对RocksDB的支持
    RocksDB介绍RocksDB简介RocksDB是基于C++语言编写的嵌入式KV存储引擎,它不是一个分布式的DB,而是一个高效、高性能、单点的数据库引擎。它是由Facebook基于Google开源的kv存储LevelDB开发开发...
    99+
    2015-12-22
    「Flink」RocksDB介绍以及Flink对RocksDB的支持
  • Apache介绍及使用
    Apache的介绍 Apache全称:Apache HTTPD Server ;是Apache基金会的一个开源网页服务器,可以在大多数计算机操作系统中运行。Apache提供的服务器又称为:补丁服务器 ...
    99+
    2023-09-17
    apache php 服务器
  • Apache介绍及常用配置
    Apache是一款开源的Web服务器软件,也是目前世界上使用最广泛的Web服务器软件之一。它能够处理静态文件和动态内容,并且支持多种...
    99+
    2023-09-21
    Apache
  • 关于Apache负载均衡介绍
    Apache负载均衡(Apache Load Balancer)是一种在多台服务器之间分配工作负载的技术。它通过将客户端请求分发到多...
    99+
    2023-09-23
    Apache
  • Apache中 RewriteRule 规则参数介绍
    在 Apache 中,RewriteRule 是一个用于重写 URL 的指令。它的语法如下:```RewriteRule patte...
    99+
    2023-09-14
    Apache
  • Java Apache common-pool对象池介绍
    目录对象生命周期Config详解代码说明ObjectPoolPooledObjectFactoryPooledObject方案提供了三种类型的pool前言; Apache commo...
    99+
    2024-04-02
  • 密码学之apache部署https介绍
    目录实验目的实验环境实验原理实验步骤一、生成独立的CA二、生成服务器的私钥key和签名请求文件csr三、安装apache的ssl模块四、复制证书到对应路径五、修改apache配置文件,让证书生效六、重启apache服务七...
    99+
    2022-06-04
    apache搭建本地https apache安装部署https
  • Apache Flink 1.6.0有哪些改进
    小编给大家分享一下Apache Flink 1.6.0有哪些改进,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Apache Flink 1.6.0 重要更新主要包...
    99+
    2023-06-02
  • Apache Flink常用操作是什么
    这篇文章主要讲解了“Apache Flink常用操作是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Apache Flink常用操作是什么”吧!使用Maven将自己的代码编译打包打好的包...
    99+
    2023-06-27
  • Apache Hudi结合Flink的示例分析
    这篇文章主要介绍Apache Hudi结合Flink的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1. 实时数据落地需求演进实时平台上线后,主要需求是开发实时报表,即抽取各类数据源做实时etl后,...
    99+
    2023-06-29
  • 怎么在Apache Flink中使用Python API
    这篇文章主要介绍了怎么在Apache Flink中使用Python API,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一.Apache Flink Python API 的...
    99+
    2023-06-02
  • linux系统中apache服务的优先级介绍
    这篇文章主要讲解了“linux系统中apache服务的优先级介绍”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“linux系统中apache服务的优先级介绍”吧!安装php软件包:安装文本浏览...
    99+
    2023-06-13
  • Flink cdc 介绍及使用 FlinkCDC读取mysql 及 jdbc 连接参数配置
    Flink cdc 介绍及使用 FlinkCDC读取mysql 及 jdbc 连接参数配置、官方案例 1. Flink cdc 介绍2. 常见cdc开源方案3. Flink cdc 使用案例3...
    99+
    2023-09-16
    mysql flink java 大数据
  • phpwind伪静态规则(IIS,Nginx,Apache)的介绍及代码
    phpwind iis下伪静态规则[ISAPI_Rewrite]RewriteRule ^(.*)/(.*)-htm-(.*)-(.*)\.html$ $1/$2\.php\$3=$4RewriteRule ^(.*)/...
    99+
    2022-06-12
    phpwind伪静态规则 IIS Nginx Apache
  • Python~~简介介绍
    Python (英国发音:/paθn/ 美国发音:/paθɑn/), 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于...
    99+
    2024-04-02
  • LAMP架构介绍、MYSQL介绍、安装
    LAMP 架构 LAMP 指的Linux(操作系统)、Apache(httpd服务器)、MySQL(数据库软件)和PHP(有时也是指Per或Python)的缩写,一般用来建立web服务器(三个角色可以在一...
    99+
    2024-04-02
  • Hadoop介绍
    Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台,允许使用简单的编程模型在大量的计算机集群上对大型数据集进行分布式处理。 下面是Hadoop的版本: HDFS(分布式文...
    99+
    2014-08-16
    Hadoop介绍
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作