一、组件

apache hadoop:是一个用Java编写的Apache开源框架

​ 1、hdfs: Hadoop 分布式文件系统 (HDFS) 是一种分布式文件系统。

​ 2、mapreduce:hadoop自带计算框架。

​ 3、yarn:YARN 资源管理器

cdh: CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建

hive :Apache Hive ™ 数据仓库

pig: Apache Pig是一个用于分析大型数据集的平台,其中包括用于表达数据分析程序的高级语言

sqoop:sqoop是连接关系型数据库和hadoop的桥梁

loader:Loader是实现FusionInsight HD与关系型数据库,文件系统之间交互数据和文件的数据加载工具

hue:Hue是一个开源的Apache Hadoop UI系统

flume:是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据

impala:是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎

zookeeper:它是一个分布式服务框架,

hbase:是一个领先的No-SQL数据库,它在HDFS上存储数据,是面向列的数据库

azkaban:Linkedin公司推出的一个批量工作流任务调度器

redis:redis是一个开源的、使用C语言编写的、支持网络交互的、可基于内存也可持久化的Key-Value数据库

kafka:Kafka是一个分布式消息队列

scala:scala是将面向对象和面向函数式整合在一起,基于JVM的编程语言

Streaming:Streaming基于开源Storm,是一个分布式、实时计算框架。

Storm:Storm是Twitter开源的分布式实时大数据处理框架

spark:是一个快速、通用的大规模数据处理引擎 (基于scala开发)

​ 1、spark rdd:弹性分布式数据集。

​ 2、spark sql:Spark中结构化数据处理模块。使用Spark SQL提供的接口

​ 3、spark streaming:spark实时计算引擎

​ 4、spark graphx: spark图形数据库

​ 5、spark mLlib:spark机器学习

flink:Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架

clickhouse: 是俄罗斯的 Yandex 于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL 查询实时生成分析数据报告

kudu:免费开源的面向列的数据存储

apache kylin:Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力

apache druid:是一个专为大数据集的快速切片分析(OLAP查询)而设计的实时分析数据库

elasticsearch:全文检索

poseidon:波塞冬 Poseidon 系统是一个日志搜索平台。可以在数百万亿条、数百PB大小的日志数据中快速分析和检索特定字符串

tachyon: (现在叫alluxio)分布式内存文件系统

Apache Hudi Hudi将流处理引入大数据, 提供新鲜数据,同时比传统批处理效率高一个数据量级。

Apache Doris 支持对海量大数据进行快速分析的MPP数据库

Apache Druid 是一个高性能实时分析数据库

阿里云大数据工具

MaxCompute:计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的GB/TB/PB级数据仓库解决方案。MaxCompute为您提供了完善的数据导入方案以及多种经典的计算模型,能够更快速的解决海量数据计算问题,有效降低企业成本,并保障数据安全

DataWorks :是阿里云数加重要的PaaS平台产品,提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索

Quick BI: Quick BI是阿里云上面向企业和个人提供的高效数据分析及展现服务平台,承载了数据连接、数据处理、数据分析及可视化的能力。

DataV:Vue 大屏数据展示组件库

Datax:DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能

AnalyticDB:阿里云分析型数据库AnalyticDB(简称ADB),是云端托管的PB级高并发实时数据仓库

docker

podman

k8s

大数据解决方案

在这里插入图片描述

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐