大数据技术

2010年前后(第三次信息化浪潮),物联网、云计算、大数据相关技术的产生,以解决信息爆炸问题。


一、基本概念

(1) 定义

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

(2) 技术支撑

  • 存储
  • 计算
  • 网络

(3) 4V特性

  • Volume 大量化
  • Variety 多样化
  • Velocity 快速化
    1秒定律:数据的价值通常只在产生后的1秒内有效
  • Value 价值密度低

(4) 大数据影响

  • 追求全样而非抽样
  • 追求效率而非精确
  • 追求相关而非因果

(5) 大数据技术的层次

  • 数据采集与引接
  • 数据存储与管理
  • 数据处理与分析
  • 数据隐私与安全

(6) 大数据两大核心技术

  • 分布式存储
    解决海量数据的存储问题
  • 分布式处理
    解决海量数据的处理问题

(7) Apache开源大数据技术

  • 分布式数据库:HBase(BigTable的开源实现)
  • 分布式文件系统:HDFS(GFS的开源实现)
  • 分布式并行处理技术:MapReduce

(8) 谷歌大数据技术

  • 分布式数据库:BigTable
  • 分布式文件系统:GFS
  • 分布式并行处理技术:MapReduce

(9) 大数据计算模式

  • 批处理
    针对大规模数据的批处理
    MapReduce、Spark
  • 流计算
    针对流数据需要实时处理,给出实时响应,否则分析结果就失去了商业价值
    Storm、Flume、S4
  • 图计算
    针对大规模图结构数据的处理
    Google Pregel
  • 查询分析计算
    针对大规模数据的存储管理和查询分析
    Google Dremel、Hive、Cassandra

(10) 大数据关键技术

Hadoop生态

在这里插入图片描述

Spark生态

在这里插入图片描述

Flink的生态

在这里插入图片描述

Hadoop的缺点
  • 延迟高
  • 磁盘IO开销大
  • 表达能力有限
Spark的优点
  • spark的计算模式也属于MapReduce,但是不限于Map和Reduce操作,还提供多种数据集操作类型
  • spark提供内存计算,迭代效率高
  • spark基于DAG的任务调度执行机制

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐