大数据领域特征工程:数据预处理的艺术

数据预处理的本质是将原始数据转化为适合模型输入的格式清洗脏数据:处理缺失值、异常值、重复值,解决数据不一致问题;转换数据格式:将非数值型数据(如文本、日期)转换为数值型,统一特征尺度;减少数据冗余:通...
2个月前
270

Flink在大数据领域的应用场景全解析

在大数据领域,“实时性”已从“加分项”变为“刚需”:电商需要实时推荐、金融需要实时风控、物联网需要实时监控设备状态……传统的Hadoop批处理(每天处理一次数据)已无法满足需求。本文将聚焦Apache...
2个月前
270