MapReduce与Kafka实时数据处理

本文从“批处理的局限性”入手,介绍了Kafka的实时性优势,然后通过架构设计和实战,实现了Kafka+MapReduce的实时数据处理。核心要点回顾MapReduce:擅长大规模批处理,但延迟高;Ka...
2个月前
230

【JAVA探索之路】简单聊聊Kafka

它提供了高级的DSL和低级的Processor API,支持窗口、连接、聚合等复杂操作,并与Kafka的状态存储紧密集成,实现有状态的、容错的流处理。从各种源头(应用日志、数据库变更、传感器)收集数据...
2个月前
220

RabbitMQ在大数据用户行为分析中的应用

用户行为数据是典型的流数据高吞吐量:海量用户产生的行为数据,每秒可达百万级;低延迟要求:实时推荐、 fraud detection等场景需要秒级甚至毫秒级处理;异构性:数据格式包括JSON、Proto...
2个月前
190

大数据领域 HDFS 数据压缩算法比较与选择

在大数据时代,数据量呈现爆炸式增长,HDFS 作为大数据存储的重要基础,面临着巨大的存储压力。数据压缩是缓解存储压力、降低传输成本的有效手段。本文的目的就是深入比较 HDFS 中常用的数据压缩算法,明...
2个月前
240