返回顶部
首页 > 资讯 > 移动开发 >消息队列 Kafka
  • 337
分享到

消息队列 Kafka

kafka分布式 2023-10-23 12:10:48 337人浏览 八月长安
摘要

kafka Kafka 是一个分布式的基于发布/订阅模式的消息队列(MQ,Message Queue),主要应用于大数据实时处理领域 为什么使用消息队列MQ 在高并发环境下,同步请求来不及处理会发生堵塞,从而触发too many conn

kafka

Kafka 是一个分布式的基于发布/订阅模式的消息队列MQ,Message Queue),主要应用于大数据实时处理领域

为什么使用消息队列MQ

高并发环境下,同步请求来不及处理会发生堵塞,从而触发too many connection错误,引发雪崩效应。比如大量的请求并发访问数据库,导致行表锁,最后请求线程会堆积过多

我们使用消息队列,通过异步请求,缓解系统压力,消息队列经常应用于异步处理,流量削峰,应用解耦,消息通讯等场景

当前比较常见的 MQ 中间件有 ActiveMQ、RabbitMQRocketMQ、Kafka 等
 

使用消息队列的好处

  • 解耦

允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束

  • 可恢复性

系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂了,加入队列的消息仍然可以在系统恢复后被处理

  • 缓冲

有助于控制和优化数据流结果系统的速度,解决生产消息和消费消息的处理速度不一致的情况

  • 灵活性,峰值处理能力

在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量并不常见
如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费
使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请求而完全崩溃
 

  • 异步通信

很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它

想向队列中放入多少消息就放多少,然后在需要的时候再去处理它们
 

消息队列的两种模式

  • 点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)

消息生产者生产消息发送到消息队列中,然后消息消费者从消息队列中取出并且消费消息
消息被消费以后,消息队列中不再有存储,所以消息消费者不可能消费到已经被消费的消息

消息队列支持存在多个消费者,但是对一个消息而言,只会有一个消费者可以消费

  • 发布/订阅模式(一对多,又叫观察者模式,消费者消费数据之后不会清除消息)

消息生产者(发布)将消息发布到 topic 中,同时有多个消息消费者(订阅)消费该消息和点对点方式不同,发布到 topic 的消息会被所有订阅者消费


发布/订阅模式是定义对象间一种一对多的依赖关系,使得每当一个对象(目对标象)的状态发生改变,则所有依赖于它的对象(观察者对象)都会得到通知并自动更新

Kafka 概述

基于 ZooKeeper

Kafka 是最初由 Linkedin 公司开发,是一个分布式、支持分区的(partition)、多副本的(replicar 协调的分布式消息中间件系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景,比如基于 hadoop 的批处理系统、低延迟的实时系统、spark/flink 流式处理引擎,Nginx 访问日志,消息服务等等,用 Scala 语言编写

Linkedin 于 2010 年贡献给了 Apache 基金会并成为顶级开源项目
 

Kafka 特性

  • 高吞吐量、低延迟

Kafka 每秒可以处理几十万条消息,它的延迟最低只有几毫秒。每个 topic 可以分多个 Partition,Consumer Group 对 Partition 进行消费操作,提高负载均衡能力和消费能力。

  • 可扩展性

kafka 集群支持热扩展

  • 持久性、可靠性

消息被持久化到本地磁盘,并且支持数据备份防止数据丢失

  • 容错性

允许集群中节点失败(多副本情况下,若副本数量为 n,则允许 n-1 个节点失败)

  • 高并发

支持数千个客户端同时读写

Kafka 系统架构

一台 kafka 服务器就是一个 broker
一个集群由多个 broker 组成,一个 broker 可以容纳多个 topic

  • Topic   主题

可以理解为一个队列,生产者和消费者面向的都是一个 topic
类似于数据库的表名或者 ES 的 index
物理上不同 topic 的消息分开存储

  • Partition  分区

为了实现扩展性,一个非常大的 topic 可以分布到多个 broker(即服务器)上
一个 topic 可以分割为一个或多个 partition,每个 partition 是一个有序的队列
Kafka 只保证 partition 内的记录是有序的,而不保证 topic 中不同 partition 的顺序

每个 topic 至少有一个 partition,当生产者产生数据的时候,会根据分配策略选择分区
然后将消息追加到指定的分区的队列末尾

分区的原因

  • 方便在集群中扩展,每个Partition可以通过调整以适应它所在的机器,而一个topic又可以有多个Partition组成,因此整个集群就可以适应任意大小的数据了
  • 可以提高并发,因为可以以Partition为单位读写了

基础架构

1、Replica

副本,为保证集群中的某个节点发生故障时,该节点上的 partition 数据不丢失
且 kafka 仍然能够继续工作,kafka 提供了副本机制,一个 topic 的每个分区都有若干个副本
一个 leader 和若干个 follower

2、Leader

每个 partition 有多个副本,其中有且仅有一个作为 Leader
Leader 是当前负责数据的读写的 partition

3、Follower

Follower 跟随 Leader,所有写请求都通过 Leader 路由,数据变更会广播给所有 Follower
Follower 与 Leader 保持数据同步。Follower 只负责备份,不负责数据的读写。
如果 Leader 故障,则从 Follower 中选举出一个新的 Leader
当 Follower 挂掉、卡住或者同步太慢,Leader 会把这个 Follower 从 ISR
(Leader 维护的一个和 Leader 保持同步的 Follower 集合) 列表中删除,重新创建一个 Follower

4、producer

生产者即数据的发布者,该角色将消息 push 发布到 Kafka 的 topic 中。
broker 接收到生产者发送的消息后,broker 将该消息追加到当前用于追加数据的 segment 文件中
生产者发送的消息,存储到一个 partition 中,生产者也可以指定数据存储的 partition

5、Consumer

消费者可以从 broker 中 pull 拉取数据。消费者可以消费多个 topic 中的数据

6、Consumer Group(CG)

消费者组,由多个 consumer 组成
所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者
可为每个消费者指定组名,若不指定组名则属于默认的组

将多个消费者集中到一起去处理某一个 Topic 的数据,可以更快的提高数据的消费能力。
消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费,
防止数据被重复读取,消费者组之间互不影响

7、offset 偏移量

可以唯一的标识一条消息
偏移量决定读取数据的位置,不会有线程安全的问题
消费者通过偏移量来决定下次读取的消息(即消费位置)
消息被消费之后,并不被马上删除,这样多个业务就可以重复使用 Kafka 的消息
某一个业务也可以通过修改偏移量达到重新读取消息的目的,偏移量由用户控制
消息最终是会还被删除的,默认生命周期为 1 周(7*24小时)

8、Zookeeper

Kafka 通过 Zookeeper 来存储集群的 meta 信息

由于 consumer 在消费过程中可能会出现断电宕机等故障,consumer 恢复后,
需要从故障前的位置继续消费,所以 consumer 需要实时记录自己消费到了哪个 offset,
以便故障恢复后继续消费

部署 Kafka 集群

安装 Kafka

//官方下载地址:Http://kafka.apache.org/downloads.htmlcd /optwget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.7.1/kafka_2.13-2.7.1.tgz//安装 Kafkacd /opt/tar zxvf kafka_2.13-2.7.1.tgzmv kafka_2.13-2.7.1 /usr/local/kafka//修改配置文件cd /usr/local/kafka/config/cp server.properties{,.bak}vim server.properties

修改 Kafka 配置文件

broker.id=0    #21行,broker的全局唯一编号,每个broker不能重复,因此要在其他机器上配置 broker.id=1、broker.id=2listeners=PLaiNTEXT://192.168.10.17:9092    #31行,指定监听的IP和端口,如果修改每个broker的IP需区分开来,也可保持默认配置不用修改num.network.threads=3    #42行,broker 处理网络请求的线程数量,一般情况下不需要去修改num.io.threads=8         #45行,用来处理磁盘IO的线程数量,数值应该大于硬盘数Socket.send.buffer.bytes=102400       #48行,发送套接字的缓冲区大小socket.receive.buffer.bytes=102400    #51行,接收套接字的缓冲区大小socket.request.max.bytes=104857600    #54行,请求套接字的缓冲区大小log.dirs=/usr/local/kafka/logs        #60行,kafka运行日志存放的路径,也是数据存放的路径num.partitions=1    #65行,topic在当前broker上的默认分区个数,会被topic创建时的指定参数覆盖num.recovery.threads.per.data.dir=1    #69行,用来恢复和清理data下数据的线程数量log.retention.hours=168    #103行,segment文件(数据文件)保留的最长时间,单位为小时,默认为7天,超时将被删除log.segment.bytes=1073741824    #110行,一个segment文件最大的大小,默认为 1G,超出将新建一个新的segment文件zookeeper.connect=192.168.54.10:2181,192.168.154.20:2181,192.168.154.30:2181    #123行,配置连接Zookeeper集群地址

修改环境变量 

//修改环境变量vim /etc/profileexport KAFKA_HOME=/usr/local/kafkaexport PATH=$PATH:$KAFKA_HOME/binsource /etc/profile

配置 Zookeeper 启动脚本

//设置开机自启chmod +x /etc/init.d/kafkachkconfig --add kafka//分别启动 Kafkaservice kafka start

Kafka 命令行操作

创建topic

查看当前服务器中的所有 topic

kafka-topics.sh --list --zookeeper192.168.154.10:2181,192.168.154.20:2181,192.168.154.30:2181

查看某个 topic 详情

kafka-topics.sh  --describe --zookeeper 192.168.154.10:2181,192.168.154.20:2181,192.168.154.30:2181

发布消息

kafka-console-producer.sh --broker-list192.168.154.10:2181,192.168.154.20:2181,192.168.154.30:2181  --topic test

消费消息

kafka-console-consumer.sh --bootstrap-server 192.168.154.10:2181,192.168.154.20:2181,192.168.154.30:2181--topic test --from-beginning

--from-beginning:会把主题中以往所有的数据都读取出来

修改分区数

kafka-topics.sh --zookeeper 192.168.154.10:2181,192.168.154.20:2181,192.168.154.30:2181--alter --topic test --partitions 6

删除 topic

kafka-topics.sh --delete --zookeeper 192.168.154.10:2181,192.168.154.20:2181,192.168.154.30:2181 --topic test

来源地址:https://blog.csdn.net/khvbjhb/article/details/133720063

--结束END--

本文标题: 消息队列 Kafka

本文链接: https://lsjlt.com/news/440346.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 消息队列 Kafka
    Kafka Kafka 是一个分布式的基于发布/订阅模式的消息队列(MQ,Message Queue),主要应用于大数据实时处理领域 为什么使用消息队列MQ 在高并发环境下,同步请求来不及处理会发生堵塞,从而触发too many conn...
    99+
    2023-10-23
    kafka 分布式
  • kafka之消息队列
    大数据工具 kafka 学习 之前需要先了解队列的相关知识 了解万队列就知道kafka的用处 之后再详细了解kafka的具体知识和操作 ...
    99+
    2021-05-31
    kafka之消息队列
  • 消息队列-kafka消费异常问题
    目录概述重试一定次数(消息丢失)加入到死讯队列(消息不丢失)总结概述 在kafka中,或者是说在任何消息队列中都有个消费顺序的问题。为了保证一个队列顺序消费,当当中一个消息消费异常时...
    99+
    2024-04-02
  • KOA+egg.js如何集成kafka消息队列
    这篇文章主要为大家展示了“KOA+egg.js如何集成kafka消息队列”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“KOA+egg.js如何集成kafka消息...
    99+
    2024-04-02
  • 大数据Kafka:消息队列和Kafka基本介绍
    目录一、什么是消息队列二、消息队列的应用场景异步处理 应用耦合限流削峰消息驱动系统 三、消息队列的两种方式点对点模式发布/订阅模式四、常见的消息队列的产品1) RabbitMQ2) ...
    99+
    2024-04-02
  • 关于Kafka消息队列原理的总结
    目录Kafka消息队列原理Kafka的逻辑数据模型Kafka的分发策略Kafka的物理存储模型和查找数据的设计Kafka的持久化策略设计Kafka的节点间的数据一致性策略设计Kafk...
    99+
    2024-04-02
  • Java分布式学习之Kafka消息队列
    目录介绍Kafka核心相关名称kafka集群安装kafka使用kafka文件存储Springboot整合kafka介绍 Apache Kafka 是分布式发布-订阅消息系统,在 ka...
    99+
    2024-04-02
  • Kafka中消息队列的两种模式讲解
    目录Kafka消息队列的两种模式1、点对点模式 2、发布/订阅模式 Kafka消息队列模型图解Kafka消息队列的两种模式 消息队列包括两种模式,点对点模式(po...
    99+
    2024-04-02
  • RabbitMQ消息队列
      一、简介   RabbitMQ是一个在AMQP基础上完整的、可复用的企业消息系统,遵循Mozilla Public License开源协议。MQ全称Message Queue(消息队列),它是一种应用程序对应用程序的通信方式。应用程序...
    99+
    2023-01-31
    队列 消息 RabbitMQ
  • RabbitMQ 消息队列
    RabbitMQ是一个在AMQP基础上完整的,可复用的企业消息系统。他遵循Mozilla Public License开源协议。 MQ全称为Message Queue, 消息队列(MQ)是一种应用程序对应用程序的通信方法。应用程序通过读写...
    99+
    2023-01-31
    队列 消息 RabbitMQ
  • Python消息队列
    消息中间件 --->就是消息队列异步方式:不需要立马得到结果,需要排队同步方式:需要实时获得数据,坚决不能排队例子:#多进程模块multiprocessingfrom multiprocessing import Processfro...
    99+
    2023-01-31
    队列 消息 Python
  • think\queue 消息队列
    简介 TP 中使用 think-queue 可以实现普通队列和延迟队列。 think-queue 是thinkphp 官方提供的一个消息队列服务,它支持消息队列的一些基本特性: 消息的发布,获取,执行...
    99+
    2023-09-10
    redis php thinkphp
  • python消息队列Queue
    实例1:消息队列Queue,不要将文件命名为“queue.py”,否则会报异常“ImportError: cannot import name 'Queue'”#coding=utf-8 from multiprocessing impor...
    99+
    2023-01-31
    队列 消息 python
  • Redis中如何实现消息队列和延时消息队列
    这篇文章将为大家详细讲解有关Redis中如何实现消息队列和延时消息队列,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。list的几个命令lpush (left push)由...
    99+
    2024-04-02
  • ThinkPHP6 think-queue 消息队列(延迟队列)
    安装 composer require topthink/think-queue 配置 配置文件位于 config/queue.php [ 'default'=>'sync' //...
    99+
    2023-09-04
    php 数据库 mysql
  • 什么是消息队列
    这期内容当中小编将会给大家带来有关什么是消息队列,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。很多人在做架构设计时往往会“过度设计”,简单问题复杂化,上来就引一堆中间件,...
    99+
    2024-04-02
  • FreeRTOS-消息队列详解
    ✅作者简介:嵌入式入坑者,与大家一起加油,希望文章能够帮助各位!!!! 📃个人主页:@rivencode的个人主页 🔥系列专栏:玩转FreeRTOS Ὂ...
    99+
    2023-09-29
    java 网络 开发语言
  • golang消息队列实现
    Golang是一种开源的编程语言,它适用于创建高性能的网络应用程序和消息队列等分布式系统。在这篇文章中,我们将探讨如何使用Golang来实现一个消息队列。什么是消息队列?在分布式系统中,应用程序通常需要在不同的节点之间共享数据。消息队列是用...
    99+
    2023-05-15
  • golang 几种消息队列
    Golang作为一门快速发展的编程语言,越来越受到开发者的青睐。而在现代的基于云计算、分布式、异构系统的开发中,消息队列成为了一种非常重要的架构组件。本文将介绍几种Golang常用的消息队列,并简单对比它们的特点和适用场景。1. Kafka...
    99+
    2023-05-15
  • redis中的消息队列
    这期内容当中的小编将会给大家带来有关redis中的消息队列介绍,以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。一、认识消息队列1.1 消息队列概念“消息”是在两台计算机间传送的数据单位。...
    99+
    2022-11-30
    redis 消息队列 edi
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作