云存储答案（终极版）

文章目录一、存储架构（DAS、NAS、SAN）1. 云存储的分类2. 云存储系统架构3.三种架构比较4. 分别是如何访问的5.三种存储架构的优缺点二、硬盘接口、内部结构1、硬盘相关术语以及三维坐标2、硬盘容量的计算3、硬盘的接口类型4、存储系统评价指标三、数据保护1、RAID相关知识2、数据保护的方法四、分布式存储系统1、有哪四类分布式存储系统2、Hadoop的组成部分3、HDFS5、分布式数据库

超人不会飞aa

1735人浏览 · 2019-12-19 15:00:59

超人不会飞aa · 2019-12-19 15:00:59 发布

刷波访问量

一、存储架构（DAS、NAS、SAN）

1. 云存储的分类

非可管理型云存储
面向普通用户
限定了存储容量和使用方式
使用成本低
操作简单
可管理型云存储
主要面向开发人员
将存储空间呈现为原生磁盘，提供给用户进行配置和管理

2. 云存储系统架构

enter description here

3.三种架构比较

存储架构	组成部分	数据类型	典型应用
DAS（直连附加存储）	服务器，SAS线，存储设备	块级	任何
NAS（网络附加存储）	服务器，网络，存储设备	文件级	文件服务器
SAN（区域网络存储）	服务器，网络，存储设备	块级	数据库应用

4. 分别是如何访问的

DAS使用FC,SCSI,SAS线直接进行连接
NAS通过NFS(Linux)或者是CIFS(windows)协议去访问网络文件
SAN通过以太网或者是FC进行连接，提供给用户使用ISCSI

5.三种存储架构的优缺点

存储架构	优点	缺点
DAS	易于理解，兼容性好	难以管理，扩展性有限，空间利用率不高
NAS	易于安装，成本低	性能较低，对某些应用不适合
SAN	高扩展性，高性能，高可用性	比较昂贵，配置复杂，互操作性问题

二、硬盘接口、内部结构

1、硬盘相关术语以及三维坐标

相关术语

磁盘片表面称为盘面。
磁盘片表面上以磁盘片中心为圆心，不同半径的同心圆称为磁道。
不同磁盘片相同半径的磁道所组成的圆柱称为柱面。
磁盘片被分成许多扇形的区域，每个区域叫一个扇区。

三维坐标

C,H,S
盘面号：扇区所在的磁头Header（或盘面Side）
柱面号（Cylinder）：磁道，确定磁头的径向方向。
扇区号（Sector）：在磁道上的位置。也叫块号。确定了数据在盘片圆圈上的位置。

2、硬盘容量的计算

计算公式：

硬盘容量= 磁面个数 * 柱面个数 * 扇区个数 * 每个扇区的大小512B （单位bytes)

例：Disk /dev/hda: 80.0 GB, 80026361856 bytes　　255 heads, 63 sectors/track, 9729 cylinders　，根据上述参数求磁盘的大小

解析：
255 heads：表示磁头数为255
63 sectors/track：表示每磁道上有63个扇区
9729 cylinders：表示共有9729个柱面，柱面是分区的最小单位
一个柱面大小：Units = 255972963* 512B = 80023749120 bytes
总结：磁盘的大小=磁头数量柱面数量每个磁道上的扇区数*一个扇区大小

3、硬盘的接口类型

enter description here

4、存储系统评价指标

容量、吞吐量、IOPS、响应时间
测试指标：IOPS和MBPS(吞吐率)

三、数据保护

1、RAID相关知识

enter description here

RAID0

定义： RAID0即没有容错设计的条带硬盘阵列，以条带形式将RAID组的数据均匀分布在各个硬盘中
读写速度极快，不占用CPU资源。但是不适合用于关键数据环境，因为数据不可恢复

enter description here

RAID1

RAID 1 定义：RAID 1又称镜像（Mirror），数据同时一致写到主硬盘和镜像硬盘
提高了安全性，100％的数据冗余。但是空间利用率只有1/2。

enter description here

RAID 5

RAID 5校验数据均匀分布在各数据硬盘上，RAID成员硬盘上同时保存数据和校验信息，数据块和对应的校验信息保存在不同硬盘上。
特点：高读取速率，中等写速率。RAID组里单块硬盘的故障，会导致其他硬盘读写性能大幅度下降

enter description here

RAID 10

定义：RAID 10是将镜像和条带进行两级组合的RAID级别，第一级是RAID1镜像对，第二级为RAID 0。

enter description here

2、数据保护的方法

数据保护的实现方法包括拷贝、备份、复制、镜像、快照等

拷贝

每次都需要拷贝整个文件或文件夹并覆盖上次拷贝内容
只支持文件格式，无法拷贝正在使用的文件。不能判断数据变化增量，每次需要拷贝所有数据

备份

定义：是指利用备份软件把数据从磁盘备份到磁带进行离线保存；
全备份：是对数据的完全备份。
增量备份：是对上次全备份或者增量备份后被修改了的文件做备份；
差量备份：是备份自上次全备份后被修改过的文件；
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pnBzge6T-1576738704088)(https://raw.githubusercontent.com/1519059197/img_note/master/小书匠/1576736298279.png)]

复制

指利用复制软件 /硬件把数据从一个存储区域传输到另一个存储区域（通常是逻辑卷），生成一个数据副本。
重点：
与拷贝方式相比，复制
支持针对增量数据进行保护
与备份方式相比，复制
数据副本是数据处理系统直接可以访问的，不需要进行任何的数据恢复操作
与拷贝、备份方式相比，复制
支持远距离传输
不占用服务器资源和网络带宽

快照

两种建立快照的方法：
写时拷贝（COW）：一次读两次写

写时重定向（ROW）：一次写

四、分布式存储系统

1、有哪四类分布式存储系统

分布式文件系统、分布式键值系统、分布式表格系统、分布式数据库

2、Hadoop的组成部分

HDFS、MapReduce、YARN
大型的项目结构。HDFS、HBase做存储，MapReduce（离线计算）、内存计算、在线计算做计算，zookeeper负责做协调

enter description here

3、HDFS

HDFS中有两类节点：名称节点（NameNode）和数据节点（DataNode）
高可用集群用来解决单点故障，具有两个名称节点
.

HDFS上传和下载的命令

必考：hadoop dfsadmin -report 查看HDFS状态，比如有哪些datanode，每个datanode的情况
上传命令：hadoop fs -put 要上传的文件路径上传到哪个文件夹下
下载hdfs中myTask/input/wordcount.txt到本地opt文件夹中 hadoop fs -get /myTask/input/wordcount.txt /opt
总结：hdfs的命令格式为 hadoop fs -linux下的命令参数
例如：创建一个文件夹 hadoop fs -mkdir /myTask

5、分布式数据库有哪几类节点？

管理节点：本身不提供服务只是控制整个集群的开启与关闭
sql节点：真正提供数据库的存储，并和其他数据节点关联用
数据节点：和平常数据库一样提供正常服务

注意各节点启动顺序:管理节点—>数据节点—>SQL节点，关闭顺序相反
做实验的时候是1个管理节点，2个sql节点，2个数据节点。
外部用户访问sql节点
启动sql节点的命令service mysql start

五、云存储的实现架构

结构化数据：即行数据，存储在数据库里，可以用二维表结构来逻辑表达
非结构化数据：在传统数据库的结构化数据之外，那些不适宜用数据库存储和操作的数据。
半结构化数据：介于完全结构化数据和完全无结构的数据之间的数据类型

enter description here

第一层：存储资源层
云计算的物理存储资源包括DAS、SAN、NAS、分布式存储系统
DAS和SAN以接入资源的方式，为NAS和分布式存储系统提供存储服务
存储资源层最终以分布式文件系统或NAS的方式为上层提供服务
第二层：服务器资源层
云计算中的物理服务器首先挂载后端存储，进而实现一个完整的计算节点
计算节点的虚拟化实现了物理CPU、内存、网络和存储的虚拟化
物理存储的虚拟化是通过计算节点实现的
第三层：分布式数据处理层
虚拟化后的计算、存储和网络资源组成了云资源池
为实现云资源的使用，关键在于实现数据的分布式处理
分布式数据处理主要包括分布式存储技术和分布式计算技术
第四层：云平台管理层
云资源池最终以云服务的方式提供给用户，如虚拟机、云存储等
云平台管理软件负责云存储服务的实现
用户数据如系统镜像、应用、静态数据（图片、视频）、动态数据分别存储在逻辑的NAS、分布式文件系统、分布式表格系统等存储资源中