Pyspark学习一:概述
PySpark 介绍 & 为什么使用 PySpark
官方文档:https://spark.apache.org/docs/latest/api/python/
1. PySpark 是什么?
PySpark 是 Apache Spark 的 Python API,提供了 大规模分布式计算能力,用于处理 大数据。
Spark 本身是一个 基于内存计算的分布式计算框架,比 Hadoop MapReduce 更快,适用于 批处理、流处理、机器学习和图计算。
PySpark = Spark(核心计算引擎) + Python API,允许 Python 开发者轻松使用 Spark 进行大规模数据处理。
2. 为什么使用 PySpark?
✅ 适用于大规模数据处理
- PySpark 可以在 集群(如 Hadoop YARN、Kubernetes、Standalone)上运行,处理 TB 或 PB 级数据。
- 适合处理 海量数据集,不受单机内存限制。
✅ 比 Hadoop MapReduce 快
- Spark 基于内存计算,比传统的
© 版权声明
文章版权归作者所有,未经允许请勿转载。