Hadoop分布式计算框架【MapReduce】

摘要:MapReduce是一种用于大规模数据并行处理的编程模型,它将计算任务分为Map和Reduce两个阶段,通过移动计算而非数据实现并行处理。MapReduce适用于离线批处理场景。其工作原理包括数...
1周前
90

Spark SQL简介(1)

提起 Apache Spark,大家第一反应往往是“快”。确实,作为内存计算的标杆,Spark 的速度没得说。但在真实的业务场景里,Spark 生态中出场率最高、甚至可以说是“挑大梁”的角色,绝对是 ...
2周前
80

惊艳全场!大数据数据采集的实战妙招

我是老周,做了8年大数据,从字节的大数据开发工程师到某互联网公司的大数据架构师。专注分享实战型大数据技巧,公众号“大数据老周”,每周更新一篇踩坑经验。如果你想进大数据交流群,加我微信:laozhou...
2周前
100