KafkaStream流式计算
一、背景 1、流式计算的概念 一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻
Kafka
未读
kafka消息删除机制
1、前言 对于传统的message queue而言,一般会删除已经被消费的消息,而Kafka集群会保留所有的消息,无论其被消费与否。当然,因为磁盘限制,不可能永久保留所有数据(实际上也没必要)。 2、删除策略 两种策略删除旧数据。一是基于时间,二是基于Partition文件大小。 例如可以通过配置$
Kafka分区和消费
一、分区机制 同一个Topic包含不同的Partition(分区)存储在不同机器 一个分区就是一个提交日志。消息以追加的方式写入分区,然后以先进先出的顺序读取 Partition分区的好处是可以并行读和写,保证kafka高吞吐、高性能、高可用 每个Partition针对每一个消费组设计了独立的偏移量