学会大数据领域数据清洗,提高数据处理效率

完全重复:所有字段都相同(比如同一行数据被导入两次);逻辑重复:关键字段组合重复(比如同一用户、同一时间、同一商品的订单)。我们的场景中,逻辑重复是重点(完全重复很少见),需要用组合判断。数据清洗的本...
3个月前
260