Spark SQL简介(1)

提起 Apache Spark,大家第一反应往往是“快”。确实,作为内存计算的标杆,Spark 的速度没得说。但在真实的业务场景里,Spark 生态中出场率最高、甚至可以说是“挑大梁”的角色,绝对是 ...
4个月前
380

惊艳全场!大数据数据采集的实战妙招

我是老周,做了8年大数据,从字节的大数据开发工程师到某互联网公司的大数据架构师。专注分享实战型大数据技巧,公众号“大数据老周”,每周更新一篇踩坑经验。如果你想进大数据交流群,加我微信:laozhou...
4个月前
400

数据仓库和数据集市之ODS、CDM、ADS、DWD、DWS

数据仓库分层架构解析 本文系统介绍了数据仓库的分层架构设计,主要包括: 基础数据层(ODS):最接近数据源的层级,进行ETL处理后保留原始数据特征,负责数据清洗、去重等预处理工作 数据仓库层(DW...
4个月前
410

HBase与DynamoDB对比:云数据库选择

在云计算和大数据时代,分布式数据库成为处理海量结构化/半结构化数据的核心基础设施。HBase作为Apache开源项目,基于Hadoop生态构建,提供高吞吐、可扩展的列式存储;DynamoDB是AWS推...
4个月前
420