大数据(二)大数据相关的技术
大数据(二)大数据相关的技术1.云技术大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。
大数据(二)大数据相关的技术
1. 云技术
大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。
云计算思想的起源是麦卡锡在上世纪 60 年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。
如今,在 Google、Amazon、Facebook 等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。
那么大数据到底需要哪些云计算技术呢?
这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。
2. 分布式处理技术
分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。
举个实际的例子,虽然这个例子有些陈旧,但是淘宝的海量数据技术架构还是有助于我们理解对于大数据的运作处理机制:
淘宝的海量数据产品技术架构分为五个层次,从上至下来看它们分别是:数据源,计算层,存储层,查询层和产品层。
数据来源层。存放着淘宝各店的交易数据。在数据源层产生的数据,通过
DataX,DbSync 和 Timetunel 准实时的传输到下面第 2 点所述的“云梯”。
计算层。在这个计算层内,淘宝采用的是 Hadoop 集群,这个集群,我们暂且称之为云梯,是计算层的主要组成部分。在云梯上,系统每天会对数据产品进行不同的 MapReduce 计算。
存储层。在这一层,淘宝采用了两个东西,一个是基于 MySQL 的分布式关系型数据库的集群 MyFox,Prom 是基于 Hadoop Hbase 技术的一个 NoSQL 的存储集群。
查询层。在这一层中,Glider 是以 HTTP 协议对外提供 restful 方式的接口。数据产品通过一个唯一的 URL 来获取到它想要的数据。同时,数据查询即是通过 MyFox 来查询的。最后一层是产品层,这个就不用解释了。
3. 存储技术
大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,这是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至 PB 甚至 EB 级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。
4. 感知技术
大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID 技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。
而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置信息被广泛的应用外,一些新的感知手段也开始登上舞台,比如,“iPhone”在home 键内嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品,微软正在研发可感知用户当前心情智能手机技术,谷歌眼镜InSight新技术可通过衣着进行人物识别。
这些感知被逐渐捕获的过程就是世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。就像一句名言所说,“人类以前延续的是文明,现在传承的是信息。”
喜欢就点赞评论+关注吧
感谢阅读,希望能帮助到大家,谢谢大家的支持!
更多推荐
所有评论(0)