在讨论项目架构时经常会提到spark、flink等大数据组件,作为小白的我对这些组件的功能总是有些模糊,趁年底工作量不大找了些资料学习一下,在此处对所理解的内容进行大概梳理,不对的地方请大家指正。
1、hadoop/spark/storm/flink
在这里插入图片描述
1)hadoop和spark是更偏向于对大量离线数据进行批量计算,提高计算速度
2)storm和flink适用于实时在线数据,即针对源源不断产生的数据进行实时处理。至于storm和flink之间的区别在于flink的实时性和吞吐量等要比storm高。

上述四个组件的实时性高低顺序如下:
hadoop<spark<storm<flink

2、hadoop/hdfs/hive/hbase
由于之前读书期间学习过一些hadoop的知识,所以比较清楚hdfs是hadoop的文件存储系统,存储csv/txt等各种格式的文件,但是对于hive和hbases就比较陌生,今天顺便一起看了一下这二者的区别和适用场景。
1)hive是对hdfs中的文件数据进行处理和计算的工具,数据还是存放在hdfs中,hive只是一个操作hdfa中文件数据的工具,其本身并不存储数据,并且没有索引查询速度比较慢。
2)hbase是会将数据存储在内存中,用于海量数据实时查询。

参考资料:
hive和hbase区别
hive读取hdfs存放文件_Hive基本概念

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐