简单梳理hadoop、spark、storm、flink等大数据组件之间的关系

在讨论项目架构时经常会提到spark、flink等大数据组件，作为小白的我对这些组件的功能总是有些模糊，趁年底工作量不大找了些资料学习一下，在此处对所理解的内容进行大概梳理，不对的地方请大家指正。1、hadoop/spark/storm/flink1）hadoop和spark是更偏向于对大量离线数据进行批量计算，提高计算速度2）storm和flink适用于实时在线数据，即针对源源不断产生的数据进行

嘿，兄弟，好久不见

5388人浏览 · 2022-01-28 15:59:41

嘿，兄弟，好久不见 · 2022-01-28 15:59:41 发布

在讨论项目架构时经常会提到spark、flink等大数据组件，作为小白的我对这些组件的功能总是有些模糊，趁年底工作量不大找了些资料学习一下，在此处对所理解的内容进行大概梳理，不对的地方请大家指正。
1、hadoop/spark/storm/flink
在这里插入图片描述
1）hadoop和spark是更偏向于对大量离线数据进行批量计算，提高计算速度
2）storm和flink适用于实时在线数据，即针对源源不断产生的数据进行实时处理。至于storm和flink之间的区别在于flink的实时性和吞吐量等要比storm高。

上述四个组件的实时性高低顺序如下：
hadoop<spark<storm<flink

2、hadoop/hdfs/hive/hbase
由于之前读书期间学习过一些hadoop的知识，所以比较清楚hdfs是hadoop的文件存储系统，存储csv/txt等各种格式的文件，但是对于hive和hbases就比较陌生，今天顺便一起看了一下这二者的区别和适用场景。
1）hive是对hdfs中的文件数据进行处理和计算的工具，数据还是存放在hdfs中，hive只是一个操作hdfa中文件数据的工具，其本身并不存储数据，并且没有索引查询速度比较慢。
2）hbase是会将数据存储在内存中，用于海量数据实时查询。

参考资料：
hive和hbase区别
 hive读取hdfs存放文件_Hive基本概念