kafka数据去重入pg，kafka重启是否丢失数据

时间：2024-01-10 本站点击：0

Kafka总结

当前消费者需要提交的消费位移是offset+1 在旧消费者客户端中，消费位移是存储在 ZooKeeper 中的。而在新消费者客户端中，消费位移存储在 Kafka 内部的主题__consumer_offsets 中。

Apache Kafka 的一个关键依赖是 Apache Zookeeper，它是一个分布式配置和同步服务。Zookeeper 是 Kafka 代理和消费者之间的协调接口。Kafka 服务器通过 Zookeeper 集群共享信息。

kafka的数据一开始就是存储在PageCache上的，定期flush到磁盘上的，也就是说，不是每个消息都被存储在磁盘了，如果出现断电或者机器故障等，PageCache上的数据就丢失了。

Kafka 工作流程基础总结：1）broker ：broker代表kafka的节点， Broker是分布式部署并且相互之间相互独立的，启动的时候向zookeeper 注册，在Zookeeper上会有一个专门用来进行Broker服务器列表记录的节点：/brokers/ids。

应用程序通过Producer API向Kafka集群发送一个或多个Topic的消息。 Consumer API 应用程序通过Consumer API，向Kafka集群订阅一个或多个Topic的消息，并处理这些Topic下接收到的消息。

1、将数据源交给容器管理，使用jndi的方式管理，可以很方便的管理数据库连接。将数据管理库交给容器，后面工程直接使用jndi的方式在容器中获取jndi地址。

2、首先一定要学习好JNDI，JNDI是App Server定位服务器资源(EJB组件，Datasouce，JMS)查找方法，如果对JNDI不熟悉的话，EJB，JMS这些东西几乎学不下去。 JNDI其实就是javax.naming.*这个包，运用起来很简单。难点在于服务器资源文件的配置。

1、简单来说，如果partition里已经有数据，但还没有消费，earliest就会从没消费的起始点来消费，反观latest就不会去消费；如果partition已经有已消费的数据，再放新的数据进去，那么它们都会从新的数据开始消费。

2、Kafka每次拉取一组消息，每条消息的格式如下：在每次拉取方法时，它返回的是还没有被消费过的消息集。

3、)的时间间隔大于配置的session.timeout.ms，根本原因是处理时间太长，大于设定的session.timeout.ms。如果长时间不调用poll()方法，集群会认为该消费者已经挂掉了，就不会让它提交偏移量了，这样就会造成重复消费数据。

后端工程师的岗位职责（1）参与产品组件的需求分析与设计。（2）负责研发产品的基础构架设计、开发和升级维护。（3）独立负责Android/ios系统后台服务器端应用程序开发与维护，并提供接口文档。

薪资参考以下为在某主流互联网行业招聘网站上，搜索“前端”限定“3年及以内”经验后最先出现的4份岗位待遇信息。下文中后端、全栈薪资信息截图条件相同。

后端开发工作岗位主要包括以下几类：Web 开发工程师：负责开发和维护网站后端系统，使用服务器端编程语言（如Java、Python等）和框架（如Spring、Django等）进行编码和开发。

后端工程师需要具有用于应用构建的服务器端语言，数据相关工具，PHP框架，版本控制工具，还要熟练使用 Linux 作为开发和部署环境。后端开发者使用这些工具编写干净、可移植、具有良好文档支持的代码来创建或更新 Web 应用。

程序员一般的工作是从事程序开发、程序维护。程序员是从事程序开发、程序维护的专业人员。

后端工程师的主要工作：会写Java、php、c++等系列的一种语言代码，会写SQL语句，能做简单的数据库设计，会Spring和iBatis，懂一些设计模式等。

1、服务器处理消息需要是幂等的，消息的生产方和接收方都需要做到幂等性；发送放需要添加一个定时器来遍历重推未处理的消息，避免消息丢失，造成的事务执行断裂。

2、生产者负载均衡由于同一个Topic消息会被分区并将其分布在多个Broker上，因此，生产者需要将消息合理地发送到这些分布式的Broker上，那么如何实现生产者的负载均衡，Kafka支持传统的四层负载均衡，也支持Zookeeper方式实现负载均衡。

3、　高吞吐：Kafka拥有很高的吞吐量，即使是在单节点性能比较低下的商用集群中，也能保证单节点每秒10万条消息的传输。　高容错：Kafka在设计上支持多分区、多副本的策略，拥有很强的容错性。

4、Kafka提供3种消息传输一致性语义：最多1次，最少1次，恰好1次。最少1次：可能会重传数据，有可能出现数据被重复处理的情况；最多1次：可能会出现数据丢失情况；恰好1次：并不是指真正只传输1次，只不过有一个机制。

5、Kafka 是一个高度可扩展的分布式消息系统，在海量数据处理生态中占据着重要的地位。数据处理的一个关键特性是数据的一致性。具体到 Kafka 的领域中，也就是生产者生产的数据和消费者消费的数据之间一对一的一致性。

6、KafkaProducer支持通过三种消息发送方式 KafkaProducer客户端虽然使用简单，但是一条消息从客户端到topic partition的日志文件，中间需要经历许多的处理过程。

关于kafka数据去重入pg和kafka重启是否丢失数据的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：/Postgresql/107217.html