大数据技术
大数据技术spark2010年前后(第三次信息化浪潮),物联网、云计算、大数据相关技术的产生,以解决信息爆炸问题。一、环境搭建(1) java安装在线安装sudo apt-get install openjdk-7-jre openjdk-7-jdk离线安装tar -xzvf jdk-8u201-linux-x64.tar.gzsudo mv jdk1.8.0_201/...
·
大数据技术
2010年前后(第三次信息化浪潮),物联网、云计算、大数据相关技术的产生,以解决信息爆炸问题。
一、基本概念
(1) 定义
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
(2) 技术支撑
- 存储
- 计算
- 网络
(3) 4V特性
- Volume 大量化
- Variety 多样化
- Velocity 快速化
1秒定律:数据的价值通常只在产生后的1秒内有效 - Value 价值密度低
(4) 大数据影响
- 追求全样而非抽样
- 追求效率而非精确
- 追求相关而非因果
(5) 大数据技术的层次
- 数据采集与引接
- 数据存储与管理
- 数据处理与分析
- 数据隐私与安全
(6) 大数据两大核心技术
- 分布式存储
解决海量数据的存储问题 - 分布式处理
解决海量数据的处理问题
(7) Apache开源大数据技术
- 分布式数据库:HBase(BigTable的开源实现)
- 分布式文件系统:HDFS(GFS的开源实现)
- 分布式并行处理技术:MapReduce
(8) 谷歌大数据技术
- 分布式数据库:BigTable
- 分布式文件系统:GFS
- 分布式并行处理技术:MapReduce
(9) 大数据计算模式
- 批处理
针对大规模数据的批处理
MapReduce、Spark - 流计算
针对流数据需要实时处理,给出实时响应,否则分析结果就失去了商业价值
Storm、Flume、S4 - 图计算
针对大规模图结构数据的处理
Google Pregel - 查询分析计算
针对大规模数据的存储管理和查询分析
Google Dremel、Hive、Cassandra
(10) 大数据关键技术
Hadoop生态
Spark生态
Flink的生态
Hadoop的缺点
- 延迟高
- 磁盘IO开销大
- 表达能力有限
Spark的优点
- spark的计算模式也属于MapReduce,但是不限于Map和Reduce操作,还提供多种数据集操作类型
- spark提供内存计算,迭代效率高
- spark基于DAG的任务调度执行机制
更多推荐
已为社区贡献3条内容
所有评论(0)