Hive – 安装与使用

(1)hive 简介Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL...
2周前
120

大数据OLAP中的数据倾斜处理

在大数据时代,OLAP作为一种重要的数据分析技术,被广泛应用于商业智能、决策支持等领域。OLAP系统需要处理海量的数据,以支持复杂的多维分析查询。然而,数据倾斜问题常常会严重影响OLAP系统的性能和效...
2周前
110

数据库系统工程师-云计算与大数据核心知识

本文系统梳理了云计算与大数据的核心原理、分类体系及应用场景。云计算部分重点解析了NIST定义的五大特征、部署模式和服务层次分类,强调PaaS层云数据库服务的优势;大数据部分阐述了5V特征及处理流程三阶...
2周前
100

hive桶

分桶是按分桶字段哈希取模将数据分到 N 个文件中,需通过定义;分桶表必须用插入数据,不能用LOAD DATA;分桶的核心价值是加速抽样、JOIN、GROUP BY,常与分区结合(分区管大维度,分桶管细...
3周前
110