云计算导论课后习题第六章
1、分布式文件的具体形式是什么?能否用图形方式表达出简单的情况?主要优点是什么?具体形式:文件分开存放2、GFS,HDFS,分别是哪家的?GFS 也就是 google File System,Google公司为了存储海量搜索数据而设计的专用文件系统。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。3、操作系统
1、分布式文件的具体形式是什么?能否用图形方式表达出简单的情况?主要优点是什么?
具体形式:文件分开存储在不同的文件夹下;
图形表达:
主要优点:数据有多个备份,一个文件夹下的数据如果丢失的话,可以在其他文件夹下找到,不会影响我们使用该数据。
2、GFS,HDFS,分别是哪家的?
GFS 也就是 google File System,是Google公司为了存储海量搜索数据而设计的专用文件系统。
HDFS是Hadoop Distributed File System,在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。[2004年,Doug Cutting基于Google的GFS论文,实现了分布式文件存储系统,并将它命名为NDFS(Nutch Distributed File System)。2006年,Doug Cutting加入了Yahoo(雅虎)公司,加盟Yahoo之后,Doug Cutting将NDFS和MapReduce进行了升级改造,并重新命名为Hadoop(NDFS也改名为HDFS)。]
3、操作系统中的文件系统是什么?Windows操作系统中的文件系统一般有哪几种,结构分别是什么样的?特点是什么?
文件系统是操作系统用于明确存储设备或分区上的文件的方法和数据结构;即在存储设备上组织文件的方法。操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统。文件系统由三部分组成:文件系统的接口,对对象操纵和管理的软件集合,对象及属性。从系统角度来看,文件系统是对文件存储设备的空间进行组织和分配,负责文件存储并对存入的文件进行保护和检索的系统。文件系统是操作系统用于明确磁盘或分区上的文件的方法和数据结构;即在磁盘上组织文件的方法。
分类及其结构和特点:
(1)NTFS(New Technology File System)是Windows NT内核的系列操作系统支持的、一个特别为网络和磁盘配额、文件加密等管理安全特性设计的磁盘格式。
特点:1)安全性。NTFS文件系统能够轻松指定用户访问某一文件或目录、操作的权限大小。NTFS能用一个随机产生的密钥把一个文件加密。2)容错性。NTFS使用了一种被称为事务登录的技术跟踪对磁盘的修改,NTFS可以在几秒钟内恢复错误。3)稳定性。NTFS文件系统的文件不易受到病毒和系统崩溃的侵袭。4)向下的可兼容性。NTFS文件系统可以存取FAT文件系统和HPFS文件系统的数据,如果文件被写入可移动磁盘(特别是软盘)时,它将自动采用FAT文件系统。5)可靠性。NTFS把重要交易作为一个完整交易来处理,只有整个交易完成之后才算完成,这样可以避免数据丢失。6)大容量NTFS彻底解决存储容量限制,最大可支持16EB。7)长文件名。NTFS允许长达255个字符的文件名,突破FAT的8.3标准限制(FAT规定主文件名为8个字符扩展名为3个字符)。
结构:NTFS分区主要由引导扇区、主文件表(MFT)、系统文件和文件存储区域等4个部分组成。
(2)FAT是文件配置表(File Allocation Table),是一种由微软发明并拥有部分专利的文件系统,供MS-DOS使用,也是所有非NT核心的微软窗口使用的文件系统。
FAT16是自DOS、Windows 3.x以来广泛使用的硬盘分区格式,是传统的16位文件系统。特点:它有极好的兼容性,DOS、Windows、Windows NT的各种版本,以及其他各类操作系统都支持FAT16。它相对速度快,CPU资源耗用少。但是传统FAT16的不支持长文件名,受到8+3,即8个字符的文件名加3个字符扩展名的限制。单个分区的最大尺寸为2GB,单个硬盘的最大容量一般不能超过8GB,所以如果硬盘容量超过8GB,8GB以上空间则因无法利用而浪费。
结构:一个FAT文件系统包括四个不同的部分:保留扇区,位于最开始的位置。FAT区域,它包含有两份文件分配表,它是分区信息的映射表,指示簇是如何存储的。根目录区域,它是在根目录中存储文件和目录信息的目录表。数据区域,这是实际的文件和目录数据存储的区域,它占据了分区的绝大部分。
(3)FAT32是Windows 95 OSR2版开始推出兼容16位的32位文件系统。特点为使用较小的簇(每簇仅为4KB)分配文件单元,大大提高硬盘空间利用率,减少了浪费。单个硬盘的最大容量达到2TB(1TB=1024GB),为海量硬盘的使用者提供了方便。它支持长文件名,能很好运行DOS、Windows 95 -2000的各种版本,但系统开销要大于FAT16。这种文件系统的安全性仍然较差。目前,支持这一磁盘分区格式的操作系统有Win 97、Win 98和Win 20O0/XP。这种分区格式的缺点是,首先是采用FAT32格式分区的磁盘,由于文件分配表的扩大,运行速度比采用FAT16格式分区的硬盘要慢。
结构:对于使用FAT32文件系统的每个逻辑盘内部空间又可划分为三部分,依次是引导区(BOOT区)、文件分配表区(FAT区)、数据区(DATA区)。引导区和文件分配表区又合称为系统区,占据整个逻辑盘前端很小的空间,存放有关管理信息。数据区才是逻辑盘用来存放文件内容的区域,该区域以簇为分配单位来使用。
4、Linux系统中的文件系统叫什么?它主要采用什么形式的组织方式?它与windows文件系统的比较如何?
目前大多Linux发行版本默认使用的文件系统一般是ext4。EXT4文件系统在组织文件时使用了 extents 方法来改进旧的分层索引映射的方式,所谓的extents方法简单地说就是构建extent树来组织文件,并且记录文件使用的某片区域的起始位置而非——映射。
比较:1、Linux文件系统区分大小写,而Windows文件系统不区分大小写,比如在Windows上,您不能在同一文件夹中具有名为file的文件和另一个名为FILE的文件。Windows文件系统不区分大小写,因此它们将这些名称视为相同的文件。在Linux上,文件系统区分大小写,这意味着您可以在同一文件夹中具有名为file,File和FILE的文件。每个文件将具有不同的内容,Linux将大写字母和小写字母视为不同的字符;2、Linux文件路径使用“/”,而Windows文件路径使用“\”,比如Windows上用户目录的路径为:C:\Users\用户名,在Linux上,用户主目录的路径是:/home/name;3、Linux不会锁定对文件的独占访问,而Windows会锁定对文件的独占访问。
5、我们通常看到的文件夹在操作系统中叫什么?它是做什么用处的?操作系统中文件的存储有哪几种?
我们通常看到的文件夹在操作系统中叫系统文件夹。
用处:文件系统是操作系统用来组织磁盘文件和数据结构,通过按名存取的方式来存储文件。
文件的三种外存组织方式:(1)连续组织方式:为每个文件分配一组相邻接的盘块。(2)链接组织方式:如果能将文件存储在多个离散的盘块中,就可以解决顺序方式存在的问题。该存储方式中存放文件信息的每一物理块中有一个指针,指向下一个物理块。通过链接指针,将同属于一个文件的多个离散的盘块链接成一个链表,形成的物理文件称为链接文件。(3)索引组织方式:将文件的信息存放在若干个不连续物理块中,系统为每个文件建立一个专用数据结构-索引表,并将这些块的块号存放在索引表中,此种文件物理组织结构为索引组织方式
6、分布式文件系统和单机系统有什么不一样?
分布式文件系统就是将数据分成很多片,同时向N台服务器上进行数据写入。针对一片数据丢失就导致整个文件损坏的情况,分布式文件系统是采用数据备份的方式,将多个备份数据片写入多个服务器,以保证文件的可用性。
传统单机文件系统是计算机中一个非常重要的组件,为存储设备提供一致的访问和管理方式。在不同的操作系统中,文件系统会有一些差别,但也有一些共性几十年都没怎么变化:数据是以文件的形式存在,提供 Open、Read、Write、Seek、Close 等API 进行访问;文件以树形目录进行组织,提供原子的重命名(Rename)操作改变文件或者目录的位置。
7、网络中的共享文件是怎么实现的?原理是什么?
(1)绕道法:用户对所有文件的访问都是相对于当前目录进行的,当所访问的共享文件不在当前目录下时,从当前目录出发向上返回到与共享文件所在路径的交叉点,再沿路径下行到共享文件。
(2)链接法:链接法是将一个目录中的链指针直接指向共享文件的目录项。
(3)基本文件目录:文件目录分解为基本目录和符号目录,只要在不同文件符号目录中使用相同文件内部标识符,就可实现文件的共享。
(4)利用符号链实现文件共享:用户H为了共享用户C的—个文件f,可以由系统创建一个LINK类型的新文件,将新文件写入H的用户目录中,在新文件中只包含被链接文件f的路径名,称这样的链接方法为符号链接。当H要访问被链接的文件f且正要读LINK类新文件时,被操作系统截获,操作系统根据新文件中的路径名去读该文件,于是就实现了用户H对文件f的共享。
(5)基于索引结点的共享方式:采用索引结点,将诸如文件的物理地址及其它的文件属性等信息,不再放在目录项中,而是放在索引结点中。在文件目录中只设置文件名及指向相应索引结点的指针,此时,由任何用户对文件进行追加操作或修改,所引起的相应索引结点内容的改变,例如,增加了新的盘块号和文件长度等,都是其他用户可见的,从而也就能提供给其他用户来共享。
8、在分布式文件系统中,主控服务器,数据服务器、客户端主要都起到啥作用?
答:主控服务器:(1)命名空间的维护——负责维护整个文件系统的命名空间,并暴露给用户使用;(2)数据服务器管理——集中管理数据服务器,在接收到客户端的写请求时,主控服务器需要根据各个服务器的负载等信息选择一组(根据系统配置的副本数)数据服务器为其服务;当主控服务器发现有数据服务器宕机时,需要对一些副本数不足的文件(块)执行复制计划;当有新的数据服务器加人集群或某个数据服务器上的负载过高时,主控服务器也可根据需要执行一些副本迁移计划;(3)服务调度——服务好客户端的请求;(4)主备容灾——维护文件(块)到数据服务器的映射、管理所有的数据服务器状态,并在某些条件触发时执行负载均衡计划。
数据服务器:(1)数据本地存储——负责数据文件在本地的持久化存储;(2)状态维护——维护一些状态,将自己的状态以心跳包的方式周期性地报告给主控服务器;(3)副本管理——保证数据的安全性。
客户端:(1)接口:客户端根据文件名决定将文件存储到哪个数据服务器;(2)缓存:分布式文件系统的文件存取,要求客户端先连接Master获取一些用于文件访问的元信息,这一过程一方面加重了Master的负担,一方面增加了客户端的请求的响应延迟。为了加速该过程,同时减小Master的负担,可将元信息进行缓存,数据可根据业务特性缓存在本地内存或磁盘,也可缓存在远端的cache系统上。
9、GFS,HDFS,Hadoop, zookeeper的工作原理是如何的?
(1)GFS:外来请求通过挂载点时,linux 系统内核通过VFS接口,把请求发送到FUSE;FUSE将数据交给内存的/dev/fuse,然后递交到GFS客户端;GFS客户端对数据进行处理,并通过网络协议(如TCP、IB等),传输到GFS服务端;GFS服务端接收到数据后,通过VFS接口,对数据进行相应的转存处理。
(2)HDFS:HDFS支持在计算节点之间快速传输数据。在开始阶段,它与MapReduce紧密耦合——MapReduce是一个用于大规模数据集的并行运算的编程框架。
当HDFS接收数据时,会将信息分解为单独的块,并将它们分布到集群中的不同节点,从而支持高效的并行处理。此外,HDFS专门设计有高容错的特性。HDFS可以多次复制每个数据片段,并将副本分发给各个节点,将至少一个副本放在其他服务器机架上。因此,在集群中的其他地方也可以找到崩溃节点上的数据。这确保了在恢复数据时可以继续进行处理。
(3)Hadoop:Hadoop是一个开源的分布式计算平台。HDFS 和MapReduce是Hadoop的两大核心,整个Hadoop的体系结构主要是通过 HDFS来实现对分布式存储的底层支持的,并通过MapReduce来实现对分布式并行任务处理的程序支持。
HDFS:采用主从结构模型。一个HDFS集群有一个NameNode和若干个DataNode组成:其中NameNode为主,管理文件系统命名和文件的访问操作,DataNode为从,管理存储的数据。
MapReduce:一种并行编程模式,使用者可以基于该模式情动写出分布式并行程序。由一个单独运行的主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上,由主节点监控任务的执行情况,并重新执行之前失败的任务;从节点负责执行主节点指派的任务。
(4)Zookeeper:Zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式,它们分 别是恢复模式(选主)和广播模式(同步)。当服务启动或者在领导者崩溃后,Zab就进入了恢复模式,当领导者被选举出来,且大多数Server完成了和 leader的状态同步以后,恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。
为了保证事务的顺序一致性,zookeeper采用了递增的事务id号(zxid)来标识事务。所有的提议(proposal)都在被提出的时候加上 了zxid。实现中zxid是一个64位的数字,它高32位是epoch用来标识leader关系是否改变,每次一个leader被选出来,它都会有一个 新的epoch,标识当前属于那个leader的统治时期。低32位用于递增计数。
每个Server在工作过程中有三种状态:
• LOOKING:当前Server不知道leader是谁,正在搜寻
• LEADING:当前Server即为选举出来的leader
• FOLLOWING:leader已经选举出来,当前Server与之同步
10、云存储带来的便利是什么,你平常都是用哪些云存储,他们有什么优缺点?
云存储带来的便利:
(1)管理方便,将大部分数据迁移到云存储上去后,所有的升级维护任务都是由云存储服务提供商来完成,节约了学校存储系统管理员上的成本压力。还有就是云存储服务强大的可扩展性,随着学校信息化的发展,用户会发现先前的存储空间不足,就必须要考虑增加存储服务器来满足现有的存储需求。而云存储服务则可以很方便的在原有基础上扩展服务空间,满足需求;
(2)成本低。就目前来说,企业在数据存储上所付出的成本是相当大的,而且这个成本还在随着数据的暴增而不断增加。为了减少这一成本压力,许多企业将大部分数据转移到云存储上,让云存储服务提供商来为他们解决数据存储的问题。这样就能花很少的价钱获得最优的数据存储服务;
(3)量身定制。这个主要是针对于私有云。云服务提供商专门为单一的企业客户提供一个量身定制的云存储服务方案,或者可以是企业自己的IT机构来部署一套私有云服务架构。私有云不但能为企业用户提供最优质的贴身服务,而且还能再一定程度上降低安全风险
平常使用的云存储:
平常使用的云存储 | 优点 | 缺点 |
网盘 | 使用方便,存储环境稳定,传送方式便捷,节省空间资源 | 对网速有要求 |
云硬盘 | 提供高可靠的、按需存储服务 | 云硬盘的数据存储单元是数据块,具有固定的大小 |
NAS | 方便数据共享;对现有网络环境有很好的适用性;高扩展性;易管理 | 存储性能的局限,只适合应用在较小的网络或者局域网内 |
云相框 | 相片即时分享 | |
云笔记 | 智能导入剪贴板中的文字,可记录可收藏,方便与好友共享笔记 |
11、目前我们使用的文件级云存储有哪些?数据级云存储有那些?还有什么应用级的云存储?
符合云存储特征的存储设备,称为云存储。云存储也是有不同的种类,应用在不同的云服务环境。从数据的存储和访问的方式来区分,云存储包括数据块级云存储、文件级云存储和对象级云存储。
文件级云存储有在线文档编辑,数据级的云存储有EMC的VMAX系列以及EqualLogic和3PAR的产品。
1、数据块级云存储
指提供高速的直接的数据块存储访问服务。前端的计算节点通过光纤网络访问协议访问存储,获得高速、稳定、有保障的数据访问。这种模型源于在关键业务系统中久经验证的存储局域网SAN模型。不过在云存储的时代,改为分布式的并行扩展模式,并增加了以上讨论的其它云存储特征。由于此模型采用的是高带宽、低延迟、可靠的光纤网络存储访问协议,前端计算节点独享或少量共享存储内容的数据结构,因此,和前端的计算节点是属于紧耦合的关系,性能是最优的。
2、文件级云存储
通过网络文件系统访问协议提供文件级的存储访问服务。这种模型源于网络附加存储NAS的模型,计算节点通过以太网的协议,在其上构建区域内相对快速、安全、可靠的网络文件系统来获得文件的访问服务。不过在云存储的时代,文件级云存储突破了传统NAS访问空间的局限,提供了高达PB级的全局命名空间的访问能力,和以上讨论的其它云存储特征。这种模型和前端节点是C/S的模型,二者采用树状的文件系统结构来存储和访问数据,属于中耦合的关系,在区域内性能有足够的保证。
3、对象级云存储
通过广域网的面向对象的访问协议来获取对象级的存储访问服务。对象和文件既有相似之处,也有区别。对象通常改动较少,并且拥有许多的属性,而且为多租户使用。这种模型源自于早期EMC推出的CAS存储系统。但是,在云存储时代,突破了访问地域的限制,借助于面向对象的访问协议,用户可以在全球任何地点访问对象级存储云中储存的对象内容。对象级云存储面向的是海量的各种尺寸、不同格式的对象内容,为提高访问效率,前端计算节点并不关心对象级云存储内部的存储方法和数据结构的模型。属于松耦合的关系。
更多推荐
所有评论(0)