作者 | 宋慧

出品 | CSDN云计算

数据的价值和技术应用,获得了全行业的关注、认可和重视。

不过,数据赛道百家争鸣,数据系统的技术与行业方案众多,对于开发团队和用户来说,其实仍然需要耗费大量调研和分析的时间。

近日,Gartner 云数据库魔力象限的领导者、混合数据系统厂商 Cloudera 举办了 2023 年客户大会,会上 IDC 分析师分享了对于数据系统市场与行业方案的最新趋势分析,Cloudera 则带来了最新的技术与应用方案,以及金融等行业应用案例。

在开发者群体的印象里,Cloudera 最知名的,是大数据 Hadoop 背后的商业技术公司,不过现在 Cloudera 已经进一步将自身定位为混合数据公司。据介绍,Cloudera 全球有超 10 亿美元营收,年增长率超过 100%,在全球 90 多个国家,管理总数据容量超过 25 艾字节,节点数量超过 50 万。并在 2022 年被 Gartner 评为魔力象限云数据库管理系统领域被评为领导者。

采访中,Cloudera 大中华区区域副总裁王刚也分享了 Cloudera 在中国市场的成绩,短短两年时间里,有 83%中国客户已经完成了(或部分完成,含逐步实施)CDP 升级。(2019 年,Cloudera 与 Hortonworks 合并后,对 CDH 和 HDP 两条产品线高度重合的部分删减和融合,推出新一代的数据平台 Cloudera Data Platform,简称 CDP。)

Cloudera 这些成绩,从侧面显示了数据系统市场的快速发展。对于数据系统发展趋势,IDC 中国研究总监卢言霞在接受 CSDN 采访时表示,云的普及以及对于数据的安全合规性要求,让数据系统在多云部署成为必然趋势。不过卢言霞也指出,不同行业、不同企业,数据规模与技术能力千差万别,除少数大型企业之外,“大部分企业仅处在数据平台和数仓建设阶段”。对于数据孤岛,烟囱式的数据系统现状与问题,卢言霞表示接下来或将有逻辑数据湖类的技术去解决。

会上,卢言霞详细分享了不同行业大数据建设的差异

现在的 Cloudera,则正是提供数据编织、湖仓一体、数据网格和未来数据生态系统架构要求的混合数据平台。

Cloudera 混合数据平台

从图中我们能清晰看出,Cloudera 的混合数据平台可基于混合云与多云部署,提供数据编制编排后,统一提供 AI、BI、机器学习等数据分析与应用产品。

本次大会 Cloudera 也重点强调了 Cloudera 混合数据平台 CDP 对数据科学与 AI、机器学习的支持。例如 Cloudera Machine Learning(CML)可以为机器学习生命周期提供端到端的工作流程支持,以及覆盖从数据专家到数据分析师等各类用户的协作式、一体化商业智能与增强功能。

大会发布的另一个重要的技术点,是 Cloudera 在数仓和数据湖的基础上,新增了对实时数据的支持 DATA-IN-MOTION。其中包含三大块组件,分别是:

1、DATAFLOW:是通过 Apache NiFi,让开发人员可以连接各类节点、来源、结构类型的数据,处理加工并交付到各处,并通过低代码去实现。

2、STREAM PROCESSING:是通过 Apache Flink and Kafka,提供完整的企业级数据流管理,提供例如 SQL 等标准界面,让开发人员、数据分析师和数据科学家搭建各类实时的混合云应用。

3、CLOUDERA SDX:通过 Apache Ranger & Apache Atlas 工具,保证数据流安全可控,监控与有效治理。

另外在采访中,Cloudera 大中华区技术总监刘隶放特别分享了 Cloudera 在重点研发的三个技术领域与方向,值得重点提一下:

1、PVC DS - Data Service 私有云数据服务

适合新应用

• 内置工作负载隔离

• 价值实现时间加快 10 倍

• 数据中心基础设施减少约 50%

• 按应用自主升级

• 重新设计的管理和用户体验

适应现有应用

• 存储和 SDX 位于同一位置,统一的安全策略管理

• 查询性能最高可提高 5 倍

2、引入 Iceberg

Cloudera 实现开放的湖仓一体架构,在单一平台支持 AI、BI、ML 和数据工程。

对开源社区支持:

• 务实的方法与我们的 OSS 根源保持一致 开放的生态系统:

• 提供一个开放的生态系统来选择跨数据生命周期的最佳分析引擎

• 开放的生态系统 = 选择和减少锁定

对多元化社区:

• Apache Iceberg 提供多样化的社区支持

3、分布式、可扩展和高性能的对象存储 Ozone

扩展到数十亿个对象

• 解决小文件问题

• 通过支持 10B 对象移除 HDFS 规模限制

• 更轻松的操作,更快的重启和维护

提高存储密度

• 每个节点支持 400-600TB

• 纠删码将存储需求从 3 倍减少到 1.7 倍

• 每个集群最多支持 1 EB

AWS S3 API 兼容性

• 开放仓湖一体集成

• 混合数据管理基础

• 具有快速恢复功能的云原生双活架构

具体到行业场景的数据应用的需求各不相同,不过Cloudera的技术研发方向值得数据行业的技术开发者重点关注和参考。CSDN也将持续报道Cloudera与数据系统技术的最新发展。

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐