Apache Spark 入门到精通

想象你有一个非常大的Excel表格,有1亿行数据。用普通电脑打开?卡死!传统的单机处理方式(如Pandas)在面对“海量数据”时无能为力。是一个快速、通用的大数据处理引擎,它可以把任务分发到很多台机器...
4周前
130

Kafka: 分布式流平台入门之安装、配置

Kafka 核心概念与工程实践摘要 Kafka 是一个分布式流处理平台,与传统消息队列相比,具有高吞吐(百万级TPS)、持久化存储和流处理能力等特性。其核心架构依赖Zookeeper协调,通过分区机制...
4周前
180