HDFS 在大数据领域的发展趋势与挑战

2006年诞生的HDFS,以"一次写入多次读取"的设计哲学,解决了TB级到PB级数据的存储难题。随着数据规模进入ZB时代,业务场景从离线批处理拓展到实时流处理、机器学习数据管道等...
4周前
170

MGeo与Flink流式计算集成实现实时地址校验

MGeo是由阿里巴巴开源的一款面向中文地址领域的预训练语义匹配模型,其核心目标是解决“不同表述、相同地点”的实体对齐问题。领域适配性强:针对中国行政区划结构(省-市-区-街道-小区)进行建模优化细粒度...
1个月前
170

Raft与区块链:大数据分布式账本的底层技术

在互联网时代,从银行转账到电商交易,每天产生的海量数据需要“分布式存储”——就像把一本大书拆成多册,存放在不同图书馆里。但问题来了:如果不同图书馆的书内容不一致(比如A馆说“小明转了100元”,B馆说...
1个月前
170

【大数据】Spark Executor内存分配原理与调优

我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用 Spark,深入地理解其内存管理模型具有非常重要的意义,这有助于我们对 Sp...
1个月前
170