大规模的数据处理最大的难点就是:无法全内存计算

因为处理的数据大,所以必须对磁盘进行处理,但是磁盘计算是非常低效的,所以处理的时候就要仔细的考虑算法

寻址

内存是通过电子工作的,所以搜索速度和物理结构无关,进行寻址时只需要微秒级别既可以

磁盘在寻址时需要1,移动磁头2,旋转磁盘  因为磁盘旋转的速度有限,所以寻址消耗毫秒别时间

*操作系统会将一个连续的数据存放在一起(win一般是4KB),这样磁盘旋转一周读取的数据就会多些,从而提高效率

传输速度

内存和硬盘的数据都会被读到cpu的缓存中,但是从内存到缓存和从硬盘到缓存的传输速度是差别很大的

内存到缓存的速度大概有7-8GB/秒,而磁盘到缓存的速度大概只有60MB/秒


因此内存计算和磁盘计算的速度差可以达到一百万倍以上


Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐