PySpark

Spark是Apache基金会旗下的顶级开源项目,用于对海量数据进行大规模分布式计算。PySpark是Spark的Python实现,是Spark为Python开发者提供的编程入口,用于以Python代...
1个月前
150

Microi 吾码:大数据浪潮中的智能领航者

在大数据的浩瀚海洋中,Microi 吾码犹如一艘智能领航者,从数据存储、处理与分析、可视化、流式处理到安全与隐私保护以及云平台集成等多个方面,为大数据应用提供了全面而强大的支持。通过丰富的代码示例和深...
1个月前
140

hive知识点

并行执行:默认情况下,Hive一次只会执行一个阶段,通过设置参数hive.exec.parallel值为true,就可以开启并发执行,将MapReduce阶段、抽样阶段、合并阶段、limit阶段,这些...
1个月前
150

Hadoop 学习心得与实践沉淀

随着学习深入,我逐渐明白:Hadoop 的核心价值不在于 “新潮”,而在于其解决海量数据存储与计算痛点的底层逻辑 ——“化整为零” 的分布式思维,既是它立足行业十余年的根本,也是我后续学习中最受启发的...
1个月前
160