云计算基础与应用 第五章 云存储
以下为自己个人做的笔记,不带有商业性质,纯粹交流分享学习资料,如有侵权,请联系作者,作者看到会第一时间删除,如有侵权敬请见谅。文章目录5.1 云存储概述这章主要讲述以下三个部分,首先介绍云存储的产生背景,以及云存储的层次结构,最后我将概要介绍raid。从狭义来讲,存储就是大家众所周知的存储介质,比如常见的光盘,ssd固态硬盘,大容量机械硬盘,还有用在数据中心的磁带等等。从广义来讲存储的范围就更大了
以下为自己个人做的笔记,不带有商业性质,纯粹交流分享学习资料,如有侵权,请联系作者,作者看到会第一时间删除,如有侵权敬请见谅。
5.1 云存储概述
这章主要讲述以下三个部分,首先介绍云存储的产生背景,以及云存储的层次结构,最后我将概要介绍raid。
从狭义来讲,存储就是大家众所周知的存储介质,比如常见的光盘,ssd固态硬盘,大容量机械硬盘,还有用在数据中心的磁带等等。从广义来讲存储的范围就更大了。既可以讲存储硬件,又可以是存储软件,还可以是存储网络或解决方案,这些都是云存储的核心组成部分。
存储是数据的家,从数据的产生到数据处理,再到最后的数据管理,每个时间段都离不开存储,在云存储中所讲的存储更侧重于数据的管理,根据数据的访问频率,可以将数据分为在线存储、近线存储和离线存储。在线存储主要存储访问频次极高,请对数据访问延迟有严格要求的数据。例如股票交易数据。
近线存储的访问频次比在线存储要低,但是也经常需要被访问。例如数据中心中存储热播的电视剧。离线存储主要存储归档数据,例如某个人的档案数据等等。对于不同的访问频率,在云存储中将采用不同的造价的和访问速度的存储器来存储。
那么要回到经典的存储器层次结构,学过计算机组成原理或者计算机基础的同学们,可能对经典的存储器层次结构并不陌生,在
金字塔结构中越靠近金字顶端的存储器,它的访问速度越快,存储容量越小,单位比特价格越贵。
例如在金字塔结构中,寄存器的容量要小于缓存的容量,缓存的容量要小于内存的容量,内存的容量要小于固态硬盘的容量,而固态硬盘的容量又进一步的小于机械硬盘和磁带这些归档存储的存储器的容量,在存储系统中需要关注的核心因素只有三个,需要多少容量,需要容忍多么长时间的延迟,需要花多少钱,在计算机系统中不存在多快好省,这三个因素之间的trade off是云存储需要解决的核心关键问题。
我们再来看一下云存储的层次结构,根据功能来分,可以包括三个层次,访问层、数据模型层和存储引擎层,其中访问层主要面向终端用户,解决存储系统的网络接入和权限管理。
数据模型层是云存储的灵魂,从软件的角度管理硬件,实现存储硬件的高效利用。存储引擎层解决硬件资源的虚拟化和存储硬件的布局,他们在一起构成了云存储层次结构。
(以下都是raid不是read 懒得改了 语音转文字出来的结果 )
好,接下来我们来讲解一下存储层次结构中最常见的磁盘组织形式raid。为了提升存储系统的可靠性,并保障由于档期和系统运维期间数据的可用性。云存储系统中往往采用read,中文是独立磁盘冗余阵列,来组织磁盘。Read最早是由图灵奖获得者david patterson发明的,
为了将多个单独的物理硬盘组合成一个逻辑硬盘,这是虚拟化概念的直接应用
。瑞的级别主要有5种,分别是瑞特0、read1、read3、read5和read6。**然后通过上述5个瑞德级别的不同组合,**组成了多个新的read级别,例如瑞的0+1,read10和read50。
接下来我们将简单介绍这些主要的ray的级别。在介绍锐的级别之前,我们将介绍两个关于read的概念,分块和条带,首先介绍分块,分块是将一个分区分成多个大小相等的地址相邻的块,这些块成为分化,是组成条带的元素。对于条带它是一组磁盘阵列中多个磁盘相同物理地址的分块,他们在一起组成了一个条带,例如在这个例子中,我们有4块硬盘,硬盘0硬盘1,硬盘二盒硬盘三,
他们在相同物理地址的分块,在一起组成了一个条带,因此条带是跨硬盘的。
好,接下来我们介绍一第一种,瑞德灵。Read0是没有容错设计的条带硬盘阵列,它以条带的形式将read组的数据均匀的分布在各个硬盘中。例如我们有一组数据,abcdefgh这组数据会依次的存储在4个硬盘零硬盘一、硬盘二、硬盘三之中。我们再次强调瑞特灵中它不存在任何的冗余,所以它的可靠性是最差的。
好,接下来我们来介绍read1,瑞德一又称为镜像,镜像是指将数据同时一致的写在主硬盘和镜像硬盘中。例如在我们这个例子中,硬盘0和硬盘一分别为主硬盘和镜像硬盘,
我们将一组数据a到e再写入硬盘0的同时,也会将相同的一组数据a到e写入到硬盘一。
接下来我们介绍锐的三,rate3是带有校验的并行数据传输阵列,它将数据条带化的分布在数据盘中,同时使用专用校验硬盘存放校验数据。在这个例子中我们有4块硬盘,分别为硬盘0、硬盘一、硬盘二和硬盘3,我们将数据 a到h这8组数据写入这4个硬盘中,在read三中采用了一种叫做校验盘的机制,
校验盘主要用于存储校验数据,例如在我们这个例子中硬盘三就是校验盘,刚才我们提到我们将a到h8组数据,每组数据首先先分为三份,例如数据a被分为a0a1和a2,分别存储到了硬盘零硬盘一和硬盘二上,然后我们通过异或运算来去得出a0a1a2的校验值,校验值被存储在了硬盘三之中。同样的对于数据b也被分成了b0、b1、b二三组三份数据,这三份数据也通过异或运算得出它的校验值,pb存储在硬盘三种,
那么异或运算保障了任何一块硬盘的损坏,不会导致数据的丢失,我们可以通过校验值或者原始值得出所需要的校验数据或者是原始数据。
我们可以从这个图中可以发现,瑞泽三采用了一个校验盘的机制,那么校验盘就带来了数据的一个冗余,同时校验盘也消耗了额外的存储空间。
接下来我们来介绍锐德武,锐的五和瑞的三相似,也是需要保存交易信息和的三所不同的是教育信息被保存在了不同的硬盘上。例如在我们这个例子中我们有5块硬盘0硬盘2、硬盘3盒、硬盘4,生成的校验数据,批零批一批二批三批4(p),分别被存储在硬盘4、硬盘3、硬盘2、硬盘1和硬盘0总,
还有和read三所不同的是在read五中同一用户的数据被放在了相同的硬盘上,这样可以增加局部性,在保证可靠性的前提下,进一步提升了访问速度。
瑞的10是瑞的0和瑞的1的组合,在瑞的十中先做read一实现镜像,然后再用read0顺序存储数据,read时也是一种应用的比较广泛的read级别。
接下来介绍read50,read50在云存储中也是非常常见的,read50先做read5,将校验数据分散在不同的磁盘中存储,再利用read0顺序分配数据,
我们总结一下刚才讲过的几种瑞的级别,瑞凌是没有任何冗余的方式,所以不会影响可用空间。Read0需要消耗一半的存储空间来实现冗余。Read5和read6需要存储校验值,瑞的10核锐的50分别和锐的5和论6相似。那么在存储空间和可靠性之间是鱼和熊掌不可兼得的。为了提高可靠性,必须牺牲部分的存储空间,所以在云存储系统中需要充分考虑可靠性价格,还有它的可用性这些因素。好了,这一讲的内容就到这里,谢谢大家。
狭义层面上的存储包括下列哪项?A.存储介质B.存储硬件C.存储网络D.存储解决方案
A
根据数据的访问频率,存储类型不包括下列哪些?A.在线存储B.文件存储C.近线存储D.离线存储
B
关于RAID说法正确的是?A.RAID级别包括0,1,2,3,4B.RAID技术无法组合使用C.RAID 0没有容错设计D.RAID 1的可靠性比RAID 0低很多
C
5.2 云存储基础知识
光盘大家比较熟悉,光盘通过不同的反射特性来记录0和1。虽然光驱在个人电脑中已经不常见了,目前绝大多数的笔记本甚至家用的台式机都不安装光驱,但是光盘的造价已经非常便宜,
目前单张光盘的价格都在一毛钱以下,非常适合于存储离线归档数据。
因此光盘也被广泛应用在了数据中心和云存储中,存储一些离线的归档数据。由于光盘存储的主要是离线的归档数据,对于数据的访问速度要求并不高,数据中心或者云存储中,光盘对单个光盘存储容量要求较高,目前DVD18光盘可以达到双面双层17个GB,最新的单面单层蓝光,单盘容量可以超过24个GB,双面双层,蓝光的存储容量可以超过90个。
机器硬盘是更为常见的云存储介质,机械盘有可以转动的机械臂以及存储盘片组成,每个盘片包含两个盘面,每个盘片上又包含了多条磁道,每个磁道包含了多个扇区,扇区是存储数据的最小单元,目前在主流的磁盘中扇区的大小有两种,一种是4k字节,另外一种是512节。机械硬盘的性能,指标主要包含转速容量以及缓存的容量**
,转速越快,磁盘容量越大,缓存容量越大,则代表该硬盘的性能越好。
Ssd固态硬盘是有闪存阵列组织的存储介质,一个固态硬盘的三个核心部分是闪存颗粒,主控制芯片又称为主控以及缓存芯片。在这张PPT中的左下角列出了苹果笔记本中的固态硬盘,而右侧是标准盘体积的 s s d固态硬盘.
还有一种重要的存储介质是磁带,磁带的存储方法本质上是和早期录音机播放的磁带是一致的,和光盘一样词太在云存储数据中心中,主要用于存储归档数据。磁带的优点很多,在保存数据时不需要耗电,
能耗近乎为0,可靠性要远远高于固态硬盘、机械硬盘、光盘等存储介质,
而且磁带存储密度极高,单盘就可以达到100个t比以上,
扩展机柜的容量也能够达到一PB以上,非常适合存储归档数据。
接下来我们再详细讲解一下云存储介质中的一些核心技术。首先我们来介绍一下闪存,
闪存是主流的存储介质,从优盘ssd固态硬盘到SD卡、cf卡等存储卡,其核心存储介质都是闪存。
首先闪存是一种非易失性存储器,掉电或者说没有供电后,数据仍然不丢失,而且相对于机械硬盘,闪存的访问速度更快,能耗更低,体积更小,重量更轻,而且还抗震动。因此闪存可以成为替代机械硬盘的主流存储介质。
闪存有一些典型的特性,闪存的读写的最小,单元是一个物理页,而闪存的擦除的最小单位是一个物理块,一个物理块包含了多个物理页。首先我来介绍第一个闪存的特性称之为异地更新,异地更新指的是一个被写入的物理页,不能就地更新,必须要将所在的物理块擦除之后再写入。
闪存的第二个特性是耐久度的问题。普通slc闪存在经历10万次插写之后就会失效,mlc型的闪存带1万次擦鞋之后会失效,tlc失效的次数只有不到1500次。大家要知道我们普通家用的U盘,相机的s卡SD卡一般都是用tlc产存,在云存储设备中,根据不同的可靠性的要求,我们可以采用可靠性更高的slc或者mlc型的闪存,但是损耗平衡或者称之为磨损均衡的问题,由于闪存具有异地更新的问题,不同的物理块具有不同的擦除次数,为了让所有的物理块具有相同或者相似的擦除次数,以延长使用寿命,需要采用磨损均衡的管理策略。
闪存的第4个问题是写放大的问题,在规定的逻辑写入中,闪存**实际的写入往往会造成更大数据量的写入,**这就是一个写放大的问题。这几个问题使得优化闪存成为一个非常关键的工作。
那么优化闪存我们首先要回到闪存的层次结构,在闪存管理中最通用的方式是利用ftl或者称之为flash translation链,闪存转换层来去管理的。Ftl的管理通常有两种典型的模式,分别对应st卡的管理模式或者是cf卡的管理模式,ftl屏蔽了闪存的特性。从上层操作系统看来,将闪存设备封装成为一个硬盘。另外一种闪存的管理方法采用了原生的闪存文件系统,实现操作系统直接管理闪存存储系统。
其中典型的两种包括 y a f f s或者是jffs另外一个大家需要了解的是。
目前主流的闪存采用了三维闪存,三维闪存和平面二维闪存相比,相当于是高楼和平层楼房之间的区别。
在单位面积的情况下,三维闪存可以大幅提升存储的容量。、
目前主流的存储厂商东芝、英特尔、美光、三星等都布局了三维闪存,他们采用不同的技术来去制造或者设计三维闪存,三维闪存堆叠的层数已经超过了96层,例如三星最新发布的第6代vlan的技术,所设计的三维闪存,可以堆叠超过136层的三维闪存,而三维闪存的容量已经大幅提高,目前主流的三维闪存的单片容量已经超过512g小b。
接下来我们介绍一种新型的磁盘技术,称之为smr蝶瓦式磁极录音盘。叠瓦式磁记录硬盘顾名思义它采用了像瓦片一样一层一层堆叠的方式来去堆叠瓷道。它本质上它和三维闪存背后的思想是一致的,是通过增加单位面积上的存储容量来去提高它的存储密度。
我们在传统硬盘上,我们知道一条磁道和另外一条磁道之间是有空隙的,那么写一条磁道的数据不会影响它相邻磁道中所存储的数据,而在叠瓦式磁记录硬盘中,由于磁道与磁道的堆叠,**写一条磁道就会可能影响其相邻磁道中所存储的数据。**所以在SMR迪瓦斯磁基录音盘中它就引入了一些限制。首先它会影响随机写入,比如说我们在写一份数据的时候,如果你写135这样跳着来去写,可能就会影响1和3之间的数据,二。
提瓦式磁记录硬盘,由于采用的这种瓦片式的方式,**它不会影响顺序数据的写入,**就是说我们来去12345这种顺序的写,数据的可靠性都可以达到保证,是和普通的传统机械硬盘是一致的。另一方面 s m r迪瓦式刺激录音盘,它不会影响写读取,既不影响顺序读,也不影响随机读。
所以利用这些特性,我们是可以将smrDR式词记录硬盘应用在离线存储或者是近线存储中,存储一些比普通机械硬盘访问速度要求更低的,但是还有一定访问速度要求的数据。
所以它在存储器层次结构中是介于慢速的机械硬盘和磁带之间smr叠瓦式磁记录硬盘,它有一系列的工作原理。那么我们有了这样一个链接,这个链接是由希捷公司提供的,感兴趣的同学可以去光看视频来去了解更多的细节。
由于smr迪瓦斯四季度硬盘有不能支持随机写的这么一个特性,所以有一系列的管理策略被提出来去应对这个问题。其中一个最典型的管理策略叫做drive-manage的smr这种管理策略将 sm2硬盘分为两个大的区域,其中一个区域叫做persistent cash,在中词道与词道之间的间隔是非常宽的,那就像普通的机械硬盘中的词道和词道之间的间隔,所以在persistent线开始中它是能够支持随机写入的。绝大多数的存储容量呢,这些辞道又被进一步的划分成了若干个半的,半的与半的之间是有一个叫做噶的位置的这么一个区域,用来保证不同班的之间的写入,不会影响到其他班的中的数据。所以通过这种模式可以有效的解决 s m r磁盘不能随机写入的问题的内容。好,谢谢。
关于SMR叠瓦式磁记录硬盘的特点下列说法正确的是?A.不影响Random writesB.不影响Sequential writesC.读写速度比固态硬盘快D.影响Random reads
B
关于闪存的说法错误的是?A.非易失性B.访问速度快C.体积小D.功耗高
D
以下可靠性最高的是?A.磁带B.闪存C.磁盘D.光盘
A
5.3 云存储服务产品
云硬盘就是在上使用的持久性的快存储服务,从类型上来说,其实我们在购买的时候可以看到云盘的类型,从类型上说有系统盘和数据盘就是从它的用途上来,那么系统就是安装操作系统的盘,它是与这边是相同的生命周期,同时购买同时续费同时销毁的,然后数据盘是可以单独购买和续费的。第二个从硬盘的类型来说,还可以分为普通云硬盘、高性能云硬盘和 ss云硬盘,云硬盘它的可靠性可以达到9个9,而且同1个可能性也可以做数据的三副本保存,所以其实不用担心数据的丢失。
好,我们可以对比一下不同的云硬盘的特点,普通云硬盘,高性能云盘和ssd云硬盘。首先看一下存储介质,那么普通云盘的存储介质就是我们的磁盘存储Htd(?没听清),然后高性能云硬盘它是在磁盘存储的基础上增加了 cash缓存机制,就是通过缓存来提升它性能,在后端的存储还是HTd机械盘。那么ssd云硬盘它的性能是最好的,它使用的是 NVME,ssd存储就是固态盘,不仅它性能好,还来通过链路的加速让读写更加的通畅,更加的高性能。
第二个是数据可靠性都是三副本的,所以说我们存取数据的时候,它的三副本是分散,存在不同的节点上,跨节点跨机架,甚至是跨机构的这种可靠性,某一个副本坏掉了,我们可以通过其他的副本快速的去修复,保障你在哪怕坏了两个副本的时候还可以继续使用,所以可靠性还是非常高的。我们可以达到11个9的可靠性。那么第三个是磁盘大小,普通云盘的磁盘我们可以达到50g到16tb这个是比较大的高性能云硬盘,它主要是50g到4tB。
Sst云盘是100g到4tb可以看到其实它为了保证性能,它容量方面其实也是做了一定的牺牲,并没有普通云硬盘这么高,可以达到16tb,然后 i o p s普通云盘的aops可以达到几百,甚至可以达到1000。高性能语音盘的Iops可以达到15004500,那么ssd平盘可以达到240024,000,可以看到它的lops每秒的l的数量,ssd还是远远大于普通的语音盘的。从吞吐量上来看也是普通云盘40100兆,高性能云盘70130,可以达到128~260,访问时间可以看到普通云盘是小于10毫秒,然后高性能云盘和这个20毫秒小于3毫秒,这里其实看起来并不大,实际上在大规模访问的时候,这一点差距才能真正的体现它的价值。
那么从应用场景上来看,普通云硬盘一般会用到一些常规功能负责的,主要考虑低成本的场景,比如说一些大数据数据仓库,一些日志处理,然后高性能云盘它会均衡价格和性能,采用这种混合的介质,那么一般会用一些这种业务逻辑处理的,需要低延迟的一些应用,那么因为它的性能最好,它也会用这种对颜值敏感的核心业务,比如说一些关系型让数据库这些对性能要求比较高,相应的它的成本也会更高一些。
好,云盘还有一个快速的技术,其实快照就是在云盘的指定的时间去做这个数据的备份,而且我们只是在同地使用快照,它属于增量备份,保存前一次快照后面更改或者数据,你可以看到这个图,比如说我10:00中快照,那么这个时候它就保存这个10:00的这份数据,你新的数据它会写到新的区域里面去,比如11点发生变化的,它会保存在新的存储空间里面,实际上快速的回滚就是把快速时间点以后的数据丢弃,我回到最快的时间点,比如说我10点多的快照,那么到11点的时候,我就会把这一部分新增的数据去掉,我直接回滚到10点的数据,这样子我就回到快照时间点。然后快到的应用场景主要有三个,第一个是数据的日常备份,因为我们日常在操作数据的过程中,**有可能我要去做一些回退,那么这个时候我就在固定的时间点,比如说每半个小时或者每10分钟我做一次快照,**这样子我改过之后可以要回到上一个点,那么我直接点那个时间点的快照就可以很快的去做回退。
第二种是叫数据的恢复,比如说我们做了快照之后,我们可以通过快照去充电云硬盘,因为这个快照包含某个时间点的数据,那么我通过快照恢复云硬盘的时候,我就能够找到那个时间点的数据,能够快速的把这个数据给上线能够使用起来,这个比我们从其他的这种备份传统的备份方式里面去恢复数据它更加快更加高速。
第三点就是这个数据的多副本应用,当我们有多个信息需要去读取某一份数据的时候,如果我们全部去读取生产卷,那么生产圈他就会比较大,我同时要去相应就会造成性能的影响,所以我可以对同一份数据多个快照,某些生产圈是可读可写的,那么无线快照他只是只读的,这样子我可以实现读写的分离,同时也是多用途多副本的一个分离,能够实现生产行业的读写,并不会干扰或者影响到其他系统这个图,然后快照它还有一个特点,它是有地域属性的,你在某一个地域就只能创建地域的快照。
我们可以看一下云硬盘它的产品优势,首先从可靠性来看,它首先是数据写入三副本,而且是跨机架的存储分布式存储。第二个是弹性,可以自由地配置容量,而且容量增加,收入业务不中断不影响的。第三是高性能什么单板可以提供达到24,000的随机IOPS性能是非常高的,还有什么应用性操作比较简单,你可以自动去购买挂载就可以使用了。当然还需要去做一些初始化的操作,作为传统文件系统,然后还可以通过快速来做备份,通过快照去恢复云盘。
云盘的应用场景,因为我们刚才说云盘应用层一般可以用它属于块存储吗?而且是高性能的,那么会用一些关系型数据库能数据库或者一些企业的办公应用或者含量的数据分析。
第二个是文件存储cfs那么它这里主要提供的是这种安全可靠可扩展的共享,文件存储服务,然后目前的话它是支持 nfc3.0和4.0 nfc叫莱托可夫,还有道理就网络存储协议,现在这个是用的最广泛的文件共享协议,另外还有cfssMB协议其实主要是在windows系统的微软搞出来的协议,而且还支持这种posix对数据的强一致性文件锁定,还有一些权限管理的知识可以看,我们创建了一个文件系统的时候可以看到首先我们要选用可用区,然后在选择文件的服务协议,你还可以选择客户端类型,可以是cvm类型或者是其他的类型,然后选择网络。
最后再说一下就是文件存储和云硬盘一样,它需要去挂载到操作系统上才能使用,但是差别就是CFS只要挂载过去就可以使用了,但是云硬盘挂载过去之后还要做初始化,还要做安装文件系统,做进行分区才能使用,所以相对之下cfs比 c p s会给你简单一些。
下面我们可以对CBS和 c f s进行一个对比,首先看一下吞吐量,那么文件存储单客户端吞吐量可以达到100兆,上限是1.5计,相比于云硬盘来说还是很厉害的。云盘上线其实是600兆,我们可以达到两倍更多,这是文件从性能上种种量上有一定的优势。
第二个是共享性,那么文件存储它本来的目的就是为了文件的共享,所以它可以实现多客户端的共享,甚至还可以跨平台windows、linux不同操作系统的一个共享。然后还有在多个用户之间实现共享,因为它的主要应用产品就是为了这个文件共享,但是云硬盘它特点它是不共享的,我挂载在哪一个CVM哪一个云服务器,那就只能是云服务器使用,其他的云服务器不能使用。当然如果你想用其他的服务器使用,那么对于弹性云硬盘你是可以把它先卸载掉,从某一个服务器上卸载完之后再挂载到新的服务器上,可以实现一定程度的共享,但是不能同时共享。
那么第三就是冗余性其实是为了保障可靠性的,那么文件存储也好,语音盘也好,都是三副本可靠性还是比较高的。然后文件存储还进行了权限的控制,可以保证有些用户可以访问,有些用户不能访问。然后云硬盘它是没有进行权限控制的,基本上你能登录 cvm你就能够访问。然后从使用方式来说,这个文件就是挂载和直接使用,云硬盘挂载后还需要说进行初始化分区,安装文件系统。
CFS的应用场景我们可以看一下,主要用于这种企业文件共享,比如说企业的文件共享盘,然后我们日常的数据数据库里面会共享一些图片文档,还有视频,还有流媒体处理主要是你比如说一些媒体,他记者去前方去采访,设计各种的视频还有文档,然后后端去编辑要进行编辑去发布,他通过这个文件存储共享上去之后,客户端可以在后端进行一个及时的处理。还有这种外包服务内容的管理,大数据应用,可以看一下外围内容的处理,它其实就是只有近而且存储量比较高,那么就可以把外表上面的一些内容,比如说网站的内容图片,还有一些信息全部保存上面。
第三个是对象存储,对象存储它存储最大特点是没有数据格式的限制,可以是视频文档,还有是二进制文件,所有的都行,他就是把你的整个文件当成一个对象存取上去就可以了,而且他只是通过 HTTP这个协议来访问,也就是说你可以通过一个文档访问链接,比如说你上传一个文件之后,它会给你生成一个HTTP的 url访问链接,你在浏览器里面输入这个访问链接就可以下载文件存储,这个和前面的云硬盘盘存文件储不太一样,这里要强调一下,cos它是不需要挂载就可以直接使用的,这个与之前的CBS和cfs是不一样的, CBS\CFS都需要挂的才能使用,cos可以直接使用,而无需任何的挂载,然后 cos里面我们的数据存储的对象叫object,然后数据存储的空间叫bucket,存储桶,所以你就相当于是每一个上传的文件,视频也好,图像也好,它都是一个object,然后二部价格它存储空间就是bucket ,我们可以看到我们在创建存储桶的时候,你首先要指定一个名称,第二个要执行地域的,也就是说存储靠它是有地域属性的,然后设置它的权限是私有足协,公有独私有企业还是公有独信,这款权限之后,它会给你分配一个域名,这个域名就是一个自动的域名加上你的自己的 IP I d然后再加上系统默认的存在地域的靠死于民,比如你是成都,那么获取这个域名之后,你就可以通过这个域名对你存储的文件进行访问下载或者管理,这是非常方便的。
我们可以看一下的访问控制,首先你上传文件之后它也会给你生成了一个文件,访问地址可以看一下,设定时间HTTP就代表我支持HTTP的协议,前面是你定义的存储桶的名称,就是你在哪个存储桶里面。第二个是系统会给你自动分配一个域名,这个域名是按地域分类,比如说这是广州的域名,然后最后具体的文件会进行一个编码后给一个对象的名称,这样子你在浏览器里面整个网址输进去之后就可以下载文件。然后他的访问控制权限有两类,一个是共享权限,私有读写就是只允许私有的去读写,你外部是没办法去访问的,还有是公有读,私有写就是你可以内部的人可以去私有写,但是共有的就只能去读不能写。第三个就是公有读写,就是你公共的通用的人都可以读写,然后这个是用户权限可以看到用户权限。
用户的权限可以是完全控制,可以下载可以修改,可以删除,还可以去配置,这是第一类的。第二类叫什么?数据读取,你只能读取,你不能去删除。第三是权限读取,就是你只能查看权限,只能做权限的查看,你不能去做数据的修改。第三全力的协助你可以调整不同用户的权限。所以这是两个维度,一个从共享维度,一个从用户的维度进行权限的。那么配置这些权限其实还是非常简单的,你可以通过控制台进行配置界面化的配置进行选择,或者你可以通过 API调用进行配置,非常的简单和方便。
我们可以看一下cos的产品优势,首先就是高安全性,有全面的防护,有分权管理,比如说我们有防盗链的功能,之前讲cd的时候我们也讲到盗链的功能。第二个是还有通过安全实现ddos和cc攻击,还可以过于恶意的攻击数据包清洗出正常流量。第三就是我们通过多级的分权限的管理系统。
第二个优势就是高性能智能调度,可靠的访问智能调度可以支持分块的并发请求,而且我们通过在腾讯的最优的BGP路链路上传,结合 CNN延时也比较高,下载速度也比较快。
第三个是高扩展性方便接入一键迁移,我们支持 S的API的寿命,还有丰富的st K接入工具,而且还提供了无缝迁移的工具,这就是它的高性价比,按量付费可以自动扩容,你不去单独去采购和部署,在水平上按需使用,扩容的话可以随时扩容。
那么扩使得应用场景主要用一些这种非结构化数据的存储,一般结构化数据的话,我们的数据库非结构数据的话,比如说一些视频音频图片和大文件的,我们会存在cos上面,而且它主要用于这种什么?CDN内容分发作为CDN的pos原站,或者一些用户认证的人,UGC应用数据存储大数据分析处理的,可以看一下用户把数据上传到cos,这个就作为他的源站,然后再通过腾讯的CDN,我们进行全球内容的分发,那么用户就可以通过各种终端去访问,这个是归档,存储它的定位就是一个低成本高可靠易管理的云端离线存储服务,那么它存储的容器叫vote,叫文件库,然后存取的对象叫档案,Archive对象存储有点不好,对象存储是 object和 bucket对象和存储桶。
那么归档存储这里叫文件库vote和档案archive。而且这个文件库它也是有地域属性的,你充电的时候首先会选择区域.
地域我们既然提到它是离线的存储对吧?就涉及到这个数据取回,它和前面的框是和这边是不一样,那些都是实时的数据取回。这里的话你用户数据写入的时候,首先是写入临时的缓存集群里面,开始环境里面,然后最后写入到CAS持久化冷数据集群,这就理解了。取回的你也不能直接取回,首先你要去申请取回,它会把数据从计划地进行取回到缓存里面,然后在缓存里面去读取发给用户,我们可以看一下取得有三种模式。
第一是加急模式可以15分钟,而且他支持256兆以下的文件的快速读取,但这个收费就会相对要高一些。第二个是标准模式可以35小时是否批量取回,而且这个设备相对重一些,那么批量取就是5~12小时有大批量的数据的时候,它费用会比较低一些,是因为你在存储的时候你选归档存储你想知道低成本,那么你取回的时候它就会适当的收一些这种取回的费用。
我们可以看一下cas和cos的对比,首先存储容器开始叫表这里好像写反了,COS叫存储统叫 vote,CAS是叫Archive。存储类型,一个是离线存储,一个是在线存储,然后数据存储的话是通过对象数据和对象的索引,对象存储里面是通过档案来存储的,数据取回的话开始是非实时权威取证过程,它是比较复杂的,过时的话实时取回,而且比较简单的价格,从价格上来说开始的,因为它主导的低成本,所以它价格相对较低, cos和价格会相对较高一些。
好,我们可以看一下开始的产品优势,安全性它也是分级健全的,而且我们可以指定条件指定人员和指定操作,实行资源多维度的复合健全。第二个扩展性也是可以自动扩容的,大用户的一个系统上线是不会限制的,你无需提前准备。第三个成本是比较低,每G的价格远远低于在线存储,同时也是低于友商的,而且是按量付费。
可以看一下开始的应用场景主要用于是一些合规文档的文件的归档,比如说
在金融保险,还有些医疗领域,它会要求你这个数据保存10年以上,甚至这些病例要求保持50年,
这个时候它的量也比较大,然后时间也比较长,又存在着标准里面就非常昂贵,所以存在CAS里面是最合适的。当然了其实还有一些其他一些什么视频监控的场景,这里我们只是取一个场景来举例.
存储网关它实际上是一种应用的存储和云的解决方案,然后通过机差器用的方式屏蔽后端的存储差异,实现本地存储与公有云存储的无缝连接,可以看在企业它有本地应用系统,在云端有云端应用系统,它是把数据存储的需求直接发到 c s g,然后CSG企业再把它分发到本地存储或者分发到云端的cos存储CFS和case,因为不同的存储系统它可有不同的要求,不同的配置,如果应用直接去对应这些存储的话,他需要做不同的配置,这样会比较麻烦,而且它做变更做一些扩容也会比较不方便。
这个时候通过存储网关在中间打一道之后,那么后端的存储和前端的应用系统就做了隔离,那么后端存储做变化也好,做扩容也好,其实前端是不可知的,这样子其实就简化了前端的应用的配置复杂性,后端也会更灵活的调整和调度。
那么网关的类型我们有三种类型的网关、卷、网关、文件网关和磁带网关。那么卷网关它的访问协议主要是s咖啡,那么后端的存储主要是对象存储cos文件,网关它的访问企业主要是 nfc3或者nfc4.1,后端其实也是用的是cos存储,它主要是应用文件存储的场景。磁带网关他用的协议主要是vtl协议,这个时候就类似于我们的虚拟带库,用后端用的是开始存储,所以其实它三个网关用的真的用了三个场景,第一种卷的存储场景就是快存储,然后是文件存储,磁带网关是这种看归档存。
然后我们看一下CSG的产品的优势,第一个是它接口的开发,我们支持多种这种协议,它的非常的广泛。第二个是数据安全的话,我们通过加密的存储,比如说有USB可以加密,还有随机加密全部加密,包括分块加密这三者之间的分配加密,保证数据安全。第三个是带宽压力,其实上我们这个是做了压缩的,上传就上传的时候进行压缩,pdf也好,文件也好,它都有一个压缩比,压缩之后弹出的带宽压力就会得到适当的减少,你可以看到压缩比pdf可以2.5,文本文件可以达到3,那图片文件可以达到1.5,数据可以达到2.5。
然后读写延迟就可以进行一个访问的加速,比如说毒热数据到本地存储的读写性能得到提升,写的话通过缓冲区技术提供了本地的写入速度。
存储网关的应用场景主要有以下几个,比如说混合云场景备份、容灾数据分发或者数据迁移的场景,我们可以看一下下面这个图,比如客户的应用有些什么系统镜像快照,邮箱的各种需要备份的文件,那么它发送出来之后,首先它可以存储在本地存储之上。第二个它可以通过CSG把这个数据进行压缩加密,然后通过业绩的方式存储到腾讯运营商的cos上,实现业绩的热备份。那么同时还可以再进行历史数据的容灾,这样子实际上它是一个分级存储的概念。而且在这里CSG上面做数据的压缩也加密,它的数据传播的安全性的保障也是非常重要的。
第二个是存储迁移服务cdm云数据迁移,它是一个tb的pb级的安全可靠的离线数据上云迁移服务。那么cdm的设备类型有两种,一个叫m30,一个叫ml80,可以把它理解为不同规格的移动硬盘,那么 l80实际上是m30的一个升级版,可以看到从容量上m30是30tb,L80是80TB,那么支持的接口上,m30是USB3.0的接口,而l80这是两个10GB的以太网口,所以从设备尺寸上来看, l80实际上也是比m30更大的,你可以理解为容量,知识传输速率以及尺寸上180都比m30更强,那么实际上它的价格也会更高。这就我刚才说的,它为什么是离线存储,实际上它就是一个专用的这种数据迁移盘,你相当于你是去客户的数据中心,把数据拷贝到移动硬盘里面,专用的移动硬盘,然后再通过专用的快递把它寄到腾讯云的数据中心,再从数据盘里面把数据拷到的云环境。
那么这个的好处是什么?第一个就是它的传输比较高效,因为如果你通过在线传输的话有两个问题,第一个是带宽不一定能支持,你比如说我像PPT的流量传输,你在带宽要很长时间时间,而且它带宽产生的流量费用非常贵。第三个是在公网上传输的话,数据安全性也有一定的风险,所以这种离线的方式专用设备专用物流可以保障高效的传输,而且还实现了安全的保护,而且是有实时的状态的跟踪。
么cdm的产品优势主要是三个方面,安全性、高效性和低成本。首先我们讲一下安全性,这个也是客户比较关注的上云环境的数据安全,第一件事情就是对它的设备进行加密之后,密钥是由客户管理的,也就是说数据是要搞到排上了,他密钥在客户那边,就即便是腾讯拿到盘或者第三方的盘子,它也无法对这个数据进行解密,可以保证数据安全。
第二个它是与腾讯云开门服务集成了,可以实时的去管理任务的进度和权限,保证只有被授权的人才可以去操作去管理整个迁移的过程。然后数据嵌入完成后,磁盘上的数据会被擦除,而且每一个山区都会被擦除,搞到数据不会被第三方重新读取。再加上前面已经做了加密,就算你能够读其实际上你也没办法恢复原有的数据。第二个是高效性,就是它的比较高速稳定对吧?因为它通过离线去拷贝,十几笔的拷贝接口是非常快的,而且还做这种小文件的一些优化整理,避免一些磁盘碎片,还有就是腾讯云的专业的物流保障,你传输的过程状态是可监控的,而且是安全是有保障的,就是低成本性价比比较高,然后它还可以去从保证你的数据的成本降低。
那么应用场景主要有几个,一个是海量数据归档,当时我们有大量数据的时候,我们把这些拷贝到这个盘里面,然后再移动迁移到云端的理解存储,比如说一些标准存储归档存储或者是这种备份。第二个是云端数据分析处理,就是我需要把一些客户端的数据放到云端去做数据分析,这个时候我也是先拷过来,拷进去之后找到对象存储里面通过弹性map Q的批量计算和大数据处理来进行一个数据的分析处理。三就是这样,若环境的弱网环境的数据迁移,因为我们环境没办法去迁移,这个时候其实用这种理解迁移的方式是最佳的使用状态。
腾讯云中具备快照备份能力的存储是以下哪项?A.文件存储B.对象存储C.云硬盘块存储D.归档存储C
腾讯云文件存储CFS支持的协议有哪些?A.NFS v3.0B.NFS v4.0C.CIFSD.SMB
ABCD
腾讯云对象存储cos中数据以哪种形式存放?A.存储桶B.对象C.文件D.表
B
5.4 云存储应用场景
首先我们说为什么要解决冷数据存储的问题,所以其实我们也可以想到冷数据指的是什么?冷数据指的是我们其实不再需要频繁的去访问到,但是需要存储的数据。我们就直接讲一下我们的笔记本或者是台式机上 d盘e盘f盘那些数据,从下载或者说考虑到盘中之后,是不是有相当多的一部分数据?就很久已经没有访问过了。那么对这些已经不再频繁需要访问的数据,我们却付出了同样的一些成本,那么其实是没有必要,现在这一方我们就是说为什么要解决冷数据的存储,就是要去降低存储产品它的一个成本,那么什么样的一个数据去或者什么样的一个技术去导致了我们需要这样一些数据的备份。
比如说这个数据量非常大,那么应该如何的去找出什么是冷数据?比如说备份的时候,我们将长期的占用硬盘的空间,我们的硬盘就会浪费,并且我冷数据会越来越多,那么我的空间是如何的去做到扩展?那么我放到硬盘中,这个硬盘要是坏了怎么办?这些都是一些问题。那么针对我们的冷数据,第一点我们的数据量很大,我们怎么去找出呢?
首先我们去看冷数据的特点,访问频率比较低,几乎就不访问,对这个速度其实也没什么要求。那么这个时候这些数据就称之为是冷数据了。像下面的道路监控的一些暗访视频,一年前的安装视频,那么你还要去调取吗?那么医疗影像的电子病历,包括历年的这种财务报表,如果非必要的情况下,他们是不会去读去的,但是他需要去占用你的硬盘空间,造成成本的浪费,那么这个是没必要的。那么再有就是说我们看冷数据存储的特点,
我们通常可以把它放在我们的低频存储上,你低频存储上,那么低频就会比标准的存储它在成本上有优势。
所以在这里的话我放在第一瓶存储,它还是能够实现秒级的响应,但是存储的费用我们是一个非常低的价格,像你原始数据上传的对象存储,然后对象存储就有一个冷热分层的概念,那么冷出去之后你就把它都转化为低频存储,那么热数据然后你就给它放在标准存储上。
那么这个时候我们就知道存储3~6个月,这不代表你每天每秒都要读取,我们就可以放在我们的低频存储上。
那么对冷数据的一个存储的业务的特性,首先安防监控的要求,首先你这个视频要安全,你不能因为放在低频存储上做冷数据处理,然后就打不开了。然后再有冷数据,它每天产生几个t你这个海量是要满足,然后你上传下载还是比较快,那么我们如何提供的这些需求?那么首先腾讯云对象存储目前支持理论上无限大的存储空间,我们可以存储无限大的单个文件,并且对每个文件都能够进行三重的文件备份,我们可以去确保文件不会因为单点故障而损失,就是那么首先在价格上,由于说我们存储量比较大,所以说跟客服取得了联系之后,你可以去得到这样一些优惠。综合考虑来说,你肯定是使用云上的产品去做会好一些。像你的做本地的归档存储,你硬盘磁带坏了之后这个数据会丢失,包括说保存的过程你还要小心翼翼,并且容量是没有办法去扩展,可靠性也比较低。
那么我们具体来看这样的一些软数据的存储,在这里的话我们会看到有点播万象优图大数据,然后可以做视频处理,那么对上层来说,你就会产生源源不断的这样一些数据。那么我们处理的数据就是来自你前面去产生的视频源监控和移动的一个监督,然后我们的点播等等,直接就可以直接作用于你的这些归档存储上,或者说你的对象存储集群。比如说你在前面通过摄像头去返回了三个tv的视频源,
然后我们的完全由图或者说其他的一些产品就可以直接实时的分析,你这个视频上是不是有指定的内容,比如说是不是有绑架,是不是有盗窃?是不是有通缉犯?我们就可以实时去做一些业务的增值,这也是可以的。
那么再就是我们的大数据的离线分析,大数据的一些分析主要职责就是我们的活动和这种大规模的离线,以及咱们的业务的日志文件的清洗分析和信息提取。那么这种的业务的特点是什么?第一个就是数据足够多,就规模足够大,然后然后硬盘的要求也比较高。
接下来我们来看一下这样的一个案例,那么这个指的是小红书它的一个tb级别的这种离线的分析集群,这种的话它存储的需求主要是顺序读写,大文件的io操作,那么对性能的要求比较高,那么它采用的是咱们腾讯的高性能的云盘,那么下方会看到那么大量的数据在我们的对象存储里,然后进到它的一个离线数据分析的框架,然后进行这种大数据处理分析,在这里的话我们使用高性能的云盘去满足了他的需求。
那么接下来我们来看到它的一个分析的步骤,第一步通过这样的一些系统去写到我们的message,去写我们的消息,那么这个消息先写到我们的页面的存储上,然后由异步的现场去并发而去刷盘,这个时候就体现出我们的云硬盘的这种高并发的能力。那么在读这个消息的时候,云盘能够实现这种实时的智能的阅读,这个顺序的读写,我们可以直接去做命中,提高这样的一些吞吐量,去降低这样一些延迟。第二步这样一些对我们的文件系统就开始去读写。那么做这种读写,那么我们在这里都是一些顺序的l/o读写,包括说这种i/o它可以是随机的,那么这个时候就再次体现出我们的高效云盘,那么它就在我们的金融 tv级别的一些大数据分析下,可以轻松的去满足这种顺序和随机的 io。那么就是说我们在这里的话,我们在这种场景下基本上已经媲美了ssd的这种随机和顺序的能力。如果说我们需要更高级别,我们直接去采取这样一些ssd的集群
那么本身像刚才那个例子上,我们已经可以使用高性能的运营盘,在我们的离线分析中去做到一些应用,并且我们的高性能的云盘还可以去支持我们的raid10这样一些方案,并且可以去抵押我们多种的磁盘的性能,去提升业务的总体的吞吐量,我们可以去达到一秒钟一Gb以上,去满足咱们tb级别离线处理的分析。
所以整体的应用效果第一个它的存储量达到了pB级别,然后他并发是针对多个磁盘去做的刷盘,然后单个分布式的文件系统集群可以达到吞吐量是一秒钟一集笔以上,它更加高效的去满足了咱们的一个业务的分析需求。
那么针对这样一些连接社会认知处理的场景,这个是一个游戏问到的游戏。那么这种游戏它的一个业务的访问特点其实就是下班的时候,然后这个是一个高峰期,比如说每天的7点到晚上10点,凌晨的三到五点,业务的返回的高峰期存储的压力比较大,像主要表现就是磁盘,你这个性能不行,经常会出现这种我的等待,那么这个就会对于游戏的玩家来说,就会怎么点一下不走是吧?这个游戏怎么卡顿怎么又掉线了,这种抱怨。然后最后问到的游戏,
那么就可以去采用咱们的这种腾讯云的高性能的云盘。那么做了这样的一些环境之后,就能够去满足像我们的高性能在这样的一些场景下的效果。
前面我们使用这种单块ssd的语音盘,那么就足以去支撑10万游戏玩家,同时在线还有个需求,后面使用我们的ssd这种语音盘,那么去完全的去兼顾了数据的可靠性跟高性能的表现。会看到我们有这种 master的数据库,然后我们有这样的一些read,only这样一些只读的库,再加上咱们的一些备的实力,去构成了整个连接事物认知处理的成绩。
再有其他的场景,企业的文件共享,这个主要是提供给我们很多员工需要集体访问某一个文件,比如说公司的通讯录,公司的通知,规章制度,或者是对服务器来说,那么我们需要做一个集群,那么集权需要一个共享的服务器,共享的存储,那么这个时候我们的文件共享就可以提供这样的服务。
那么对象存储来说,它的使用场景,比如说我们的网盘,如果说企业需要大量的数据存储的地方,那么这个就是使用我们的对象存储。那么如果说我们说降低使用成本,我们对象存储有冷热数据沉降,他们又做这种数据分层,并且说我们觉得需要提高上传下载,我们直接一键式开启cd,那么就可以在全球进行内容的分发,这就是我们的外部服务处理。
像我们的文件存储,它也可以去作为一种持久性强,本土性比较高的文件系统,它主要像在我们的影音制作、广播处理,声音设计和渲染这样的一些媒体的工作,通常它就依赖于共享存储来操作大型的文件,强大的数据一致性的模型,再加上咱们的cfs的高吞吐量,以及共享文件的访问,可以缩短完成上述工作所需要的时间。
那么再有就是关键的数据异地备份,我们来看一下,那么这个是一个分布式的软件系统,随着你企业规模的扩展,用户关键的数据对于系统的可能性、可靠性和实时性提出了不断的一些要求。那么你本地的备份的数据往往会因为各种原因造成破坏,像一些不可抗力,地震火灾丢失,那么异地灾备的解决方案就出现在不同的地方去实现不同的这种场景,但是你自己去需要去建设异地灾备成本比较高。那么基于这样一些场景的用户可以直接使用咱们的云产品。
那么我会看到在华北、西南、华东、华能甚至海外我都拥有这样一些产品,你可以直接使用就可以实现关键数据的异地再备。
那么在我们的关键数据的异地栽培会有一个跨区域复制和数据保护的功能,对用户来说你就放在存储桶中,那么这样的话我们的存储桶中,那么这个存储同中数据就可以在多个可能去做这种数据的复制。像数据主机房所在地,然后你就可以通过备份的方式去备份到我们的经线存储上,然后你可以再去恢复到其他的数据的存储。
那么再有说我们会看到这样一些网关的数据,存储的网关,那么你就可以去使用这些网关去实现我们的数据的存储。那么你如果有必要,你可以去直接针对这些网关去做一些快照。比如说我们挂了一个ASGC卷,那就直接拍一个拍照,那么我们就可以使用这些快照去恢复,我们这些卷也是可以的,我们就不再需要专门去搞备份。
大数据离线分析的业务特点有哪些?
A.数据价值密度低
B.数据规模大
C.多磁盘并发
D.硬盘性能要求较高
ABCD
为什么要对部分数据进行降级为冷数据的操作?A.大部分访问集中在少量热数据上B.绝大部分数据在迅速变“冷”C.为了少量的访问,需要付出大量的存储成本D.符合冷热数据分离的架构思想
ABC
冷数据的特点是什么?A.访问频率低B.对访问速度要求不高C.数据需要在比较冷的环境下存储D.数据量极大
制作不易,既然看到这里了,不妨点个赞评论一下吧 ^ ^ !
你的支持是对作者创作最大的动力。
更多推荐
所有评论(0)