ODS到DWD数据清洗实战:基于Spark的高效ETL实现

层次全称数据特征主要作用ODS层操作数据存储原始数据,未经过处理,可能存在脏数据、重复数据数据备份、追溯DWD层数据仓库明细清洗后的明细数据,结构化、标准化提供高质量数据供下游使用清洗阶段主要操作优化...
3个月前
190

基于Pyspark的大众点评数据分析和可视化之旅

这个项目的目标很明确,就是对从大众点评收集来的商家数据进行深度分析和可视化。大众点评的数据那可丰富得很,涵盖了商家ID、名称、地址、城市、州、邮编、经纬度、星级评分、评论数量、营业状态、属性、类别及营...
3个月前
250

Hadoop 在大数据领域的开源生态优势

Hadoop生态系统是一个由Apache软件基金会主导的、围绕Hadoop核心构建的庞大开源软件集合。它不仅仅包含HDFS和MapReduce这两个最初的组件,而是已经发展成为一个包含数十个相关项目的...
3个月前
220