国内服务器

Flink从入门到上天系列第七篇：Flink的DataStream API的运行环境

Flink程序可以在各种上下文环境中运行：我们可以在本地JVM中执行程序，也可以提交到远程集群上运行。不同的环境，代码的提交运行的过程会有所不同。这就要求我们在提交作业执行计算时，首先必须获取当前Fl...

国内服务器

1个月前

120

ZooKeeper 三节点集群部署：别再单机玩，高可用强一致集群这样搭

还在用单机版 ZooKeeper 跑测试？./zkServer.sh start 一敲，连上 localhost:2181，看起来一切正常——但只要服务一重启，数据全丢；节点一宕机，整个系统直接瘫痪...

国内服务器

1个月前

120

spark withColumn的使用（笔记）

withColumn()：是Apache Spark中用于DataFrame操作的函数之一。它的作用是在DataFrame中添加或替换列，或者对现有列进行转换操作。

国内服务器

1个月前

120

Hadoop2 – MapReduce框架原理

自定义一个类继承FileInputFormat，改写RecordReader，实现一次读取一个完整文件封装为KV，在输出时使用SequenceFileOutPutFormat输出合并文件为了实现控制最...

国内服务器

1个月前

120

大数据数据标准化与数据治理的关系？一次性讲清楚（附框架图）

标准化是治理的“基础”：没有标准化，治理就没有“统一的语言”，无法落地；治理是标准化的“保障”：没有治理，标准化就没有“执行的动力”，无法持续；两者的目标一致：都是为了“让数据成为可信、可用、可控的资...

国内服务器

2个月前

120

Ranger-HDFS与Hive配合改造字段级鉴权能力

摘要： Hive在3.x版本缺乏完整的原生鉴权能力，其表级权限实际依赖HDFS路径权限控制。本文分析了Hive原生鉴权功能的局限性，包括仅支持元数据层级控制、无法防止用户绕过Hive直接操作HDFS等...

国内服务器

1周前

110

数据仓库基石：ETL 的基本流程全解析

Extract（抽取）：从源系统获取数据。Transform（转换）：对抽取的数据进行清洗、格式转换、业务逻辑计算等操作，使其符合目标数据仓库的规范。Load（加载）：将处理后的数据写入数据仓库（如O...

国内服务器

2周前

110

Flink与HBase集成：实时数据存储与查询方案

在当今数字化时代，实时数据处理和存储变得越来越重要。很多业务场景都需要对海量的实时数据进行快速处理和存储，以便能够及时做出决策。Flink是一个强大的实时流处理框架，而HBase是一个分布式、可伸缩的...

国内服务器

2周前

110

【Kafka核心】Kafka 3.0+ KRaft模式（替代ZooKeeper）核心原理与优势

本文系统解析Kafka 3.0+ KRaft模式全知识体系，涵盖背景演进、核心架构、Raft原理、元数据管理、部署运维、最佳实践等九大维度，深度对比ZK模式，详解Controller/Broker角色...

国内服务器

2周前

110

大数据转AI Agent开发

连接成功后，在 Cursor 里点击 "Open Folder"，打开你在虚拟机里的工作目录（比如 /home/username/ai_projects）。打开 Cursor，ct...

国内服务器

2周前

110

标签云