国内服务器

零基础学大数据：数据治理与数据质量核心实践（工具 + 流程 + 元数据管理）

摘要：本文系统介绍了大数据治理与数据质量管理的核心实践方法。首先阐述了数据治理四大关键环节：数据标准化、数据清洗、数据脱敏和数据生命周期管理，并提供了具体的技术实现方案。然后详细讲解了两款主流数据质量...

国内服务器

3周前

130

026、流式计算：Kafka与Spark Streaming实时处理

序列化：用Kryo，别用Java原生序列化。配置时记得注册自定义类：并行度：Kafka分区数和Spark分区数最好保持1:1或整数倍关系。曾经设了60个Kafka分区，Spark却只有10个core...

国内服务器

3周前

130

十五、Zookeeper【待完善】

Zookeeper主要应用于大数据开发中的，统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等场景。该框架相当于大数据框架中的润滑剂。是大数据大数据开发工程师要会的框架之一。

国内服务器

3周前

130

RabbitMQ 虚拟主机（vhost）全面解析：是什么、作用、使用场景+实战配置

在 RabbitMQ 中，Virtual Host（vhost，虚拟主机）是一个非常核心且容易被新手忽略的概念。它类似于操作系统的用户空间，也类似于 MySQL 的数据库，是 RabbitMQ 实现资...

国内服务器

3周前

130

大数据领域数据标注：从入门到精通

数据标注是机器学习项目中最基础也最关键的环节之一。本文旨在为读者提供全面的数据标注知识体系，从入门概念到高级技巧，帮助数据科学家、AI工程师和项目经理更好地理解和实施数据标注工作。本文将首先介绍数据标...

国内服务器

3周前

130

大数据新视界 — 大数据大厂之 Impala 性能飞跃：动态分区调整的策略与方法（上）（21 / 30）

本文围绕 Impala 动态分区调整，阐述其意义，对比传统分区，介绍基于时间、业务规则、混合策略，结合社交媒体、电信案例，还有性能监控与优化，含丰富代码，助力性能提升。

国内服务器

3周前

130

Jordium Gantt Vue3 1.4.3 重磅发布：虚拟渲染 + 虚拟滚动，大数据甘特图正式“无卡顿时代”

1.4.3 是一次真正意义上的性能飞跃。我们希望 Jordium Gantt 能成为 Vue 生态中最适合的甘特图组件。> 欢迎体验、提出建议、参与贡献，也欢迎到 Gitee 为我们助力！t=P...

国内服务器

3周前

130

Flink 向量化执行引擎：架构设计与实现

摘要：Flink向量化引擎通过三层架构实现流批一体场景的性能突破。在Flink内核层引入Plugin机制实现算子替换，胶水层完成RexNode到SubstraitIR的转换，Native层基于定制Du...

国内服务器

3周前

130

5分钟搞定RabbitMQ！Docker一键安装 + 核心概念图解

还在为安装RabbitMQ头疼？用Docker只需一行命令！本文提供超详细Docker安装教程，无需复杂配置，复制粘贴即可运行。安装成功后，通过可视化管理界面（http://localhost:156...

国内服务器

3周前

130

Kafka 安全认证全景解析：从 Kerberos 到 OAuth 的选型之路

文章通俗解析了Kerberos、mTLS、SCRAM与OAuth 2.0四大主流方案的核心原理与优劣势。结合大数据、金融及微服务等实战场景，提供选型对比与建议，助您精准选择最适合的“门神”，轻松构建企...

国内服务器

3周前

130

标签云