大数据技术原理与应用 【笔记】
环境看视频:http://study.163.com/course/courseMain.htm?courseId=1002887002前言个人笔记 视频笔记正文大数据 思路的转变:全样而非抽样效率而非精确相关而非因果核心技术分布式存储 和 分布式处理云计算解决了:分布式存储 、 分布式处理、虚拟化和多租户;HadoopYARN 简称“样...
环境
看视频:
http://study.163.com/course/courseMain.htm?courseId=1002887002
前言
个人笔记 视频笔记
正文
大数据 思路的转变:
全样而非抽样
效率而非精确
相关而非因果
核心技术
分布式存储 和 分布式处理
云计算
解决了:分布式存储 、 分布式处理、虚拟化和多租户;
Hadoop
YARN 简称“样” 作用是起到 调度作用;因为在版本1时 MapReduce 即处理 又负责调度;版本2进行拆分;
(集群资源管理)
HDFS
解决海量数据分布式存储问题
几个重要的概念:1、块(block)2、name node 和 data node
数据节点会定期发送自己存储的块的列表给主节点(名称节点)。
Fsimage
FsImage文件记录:文件的复制等级、修改和访问时间、访问权限,块大小以及组成文件的块。对于目录,则存储修改时间、权限和配额元数据。
Nosql
1、频繁的读写 使用键值数据库更好些
MapReduce
其实就是分布式并行编程
Hadoop MapReduce
是其具体实现。
设计理念
计算向数据靠拢
主要组成部分
1、Client
2、JobTracker
3、TaskTracker
4、Task
工作流程概述
1、不同的Map任务之间不会进行通信
2、不同的Reduce任务之间也不会进行通信
Shuffle 洗牌
分区、排序、合并、归并
之后再分发给Reduce
。
合并(Combine)和归并(Merge)的区别:
两个键值对
更多推荐
所有评论(0)