1 大数据概述

1.1 大数据时代到来的背景

时代背景: ①云计算、大数据、物联网三者一起促成三次信息浪潮;

注:
表 1   三 次 信 息 化 浪 潮 表1~三次信息化浪潮 1 

信息化浪潮时间标记解决问题代表企业
第一次信息化浪潮1980年左右个人计算机信息处理IBM、AMD 、Intel、APPLE、微软等
第二次信息化浪潮1995年左右互联网信息传输yahoo、google、百度、阿里、腾讯等
第三次信息化浪潮2010年左右大数据、物联网、云计算信息爆炸亚马逊、阿里云、抖音、等

②存储、计算、网络不断地发展给大数据时代的到来提供了技术支持;
注:存储:存储设备容量的不断增加计算:CPU性能不断地增强网络:网络带宽不断提升

③同时数据产生方式的变革也促进了大数据时代;
注:数据产生方式由最初的运营式,如超市购买系统;到后来的用户原创式,如个人发布博客、朋友圈等;到现在的感知式系统都在产生大量的数据,如监控,个人手机使用等

1.2 大数据是什么?以及大数据带来的影响

1.大数据的概念?What exactly is big data?

答:简而言之,大数据是更大、更复杂的数据集,尤其是来自新数据源的数据。这些数据集非常庞大,传统的数据处理软件根本无法管理它们。但这些海量数据可用于解决您以前无法解决的业务问题。(oracle公司)

同时还有一个"4V"的普遍说法:
1)Volume:数据量大;
2)Variety:数据种类繁多;
3)Velocity:处理书读快;
4)Value:价值密度低;
2.大数据的影响

2.1.对科学研究的影响:

大数据时代的到来将我们从计算科学带入到数据密集型科学;

2.2.对人们思维方式的影响
1)全样而非抽样;
2)效率而非精确;
3)相关而非因果;
(笔者思考:对于如今的计算运算能力,不再需要以样本去估算总体;
机器学习中对某些特征与标签之间的探索就是在探索相关,而没有追求因果)

1.3 大数据的应用领域有哪些?

金融:社交情绪分析、信贷风险
网购:推荐系统
安全领域:大数据隐私
个人生活:用户画像
城市:智慧城市
等等

1.4 大数据的关键技术是什么?

大数据的计算的两大层次是数据的存储与管理以及数据处理和分析,两者对应的核心技术分别是分布式存储和分布式处理。

(顾名思义,分布式存储是解决海量数据的存储问题,分布式处理是解决海量数据的处理问题)

1.5 大数据的计算模式有哪些?

大数据产品的服务的领域是不同的,主要分为4种模式,

批处理:不满足时效要求(秒级响应),代表MapReduce、Spark;
流计算:针对流数据的实时计算,马上响应,代表S4、Storm;
图计算:处理图结构数据产品,如Pregel;
查询分析计算:交互式查询,在海量数据中查询,代表Hive,Dremel;

1.6 大数据、云计算、物联网之间的关系

云计算:通过网路以服务的方式为用户提供非常廉价的计算机资源,如百度云;

云计算有三种服务方式:IaaS,PaaS,SaaS

云分为三种类型:公有云,私有云,混合云;

云计算的关键技术:
云计算解决了海量数据的分布式存储和分布式处理两大问题;
主要特征为:虚拟化,多租户

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐