大数据一些练习题

五、简答题1 Hadoop是什么？其核心由两大部分组成，分别是什么？我的答案：Hadoop是一种分析和处理大数据的软件平台，是Appach的一个用java语言所实现的开源软件的架框，在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。主要由分布式处理，分布式储存两大部分组成。2 MapReduce是什么？MapReduce的处理过程分为哪两部分？我的答案：MapReduce是一种编程模

城城欲摧

4148人浏览 · 2021-12-22 09:10:13

城城欲摧 · 2021-12-22 09:10:13 发布

五、简答题
1 Hadoop是什么？其核心由两大部分组成，分别是什么？
我的答案：
Hadoop是一种分析和处理大数据的软件平台，是Appach的一个用java语言所实现的开源软件的架框，在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。主要由分布式处理，分布式储存两大部分组成。

2 MapReduce是什么？MapReduce的处理过程分为哪两部分？
我的答案：
MapReduce是一种编程模型，用于大规模数据集的并行运算。
处理过程分为Map（映射）和Reduce（归约）两个部分。

3 ZooKeeper是什么？Zookeeper的应用场景主要有哪些？
我的答案：
Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby的一个开源的实现。它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步的合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户。
主要应用场景为：分布式协调、分布式锁、元数据、配置信息管理、HA高可用性。

4 Zookeeper的角色分为几种？分别有什么功能？
我的答案：
分三种。
Leader:负责响应所有对Zookeeper状态变更状态的请求。
Follower:响应本服务器上的读请求，处理leader的提议，并在leader提交该协议时在本地也进行提交。
Observer:除了无选举权，其余和Follower一样，设置一些Observe以提高读取的吞吐量。

5 Znode的节点分为哪几种类型？
我的答案
分为四种：临时节点，临时顺序节点，永久节点和永久顺序节点。

六、计算题
1根据要求完成，在HbaseShell中以下操作：
(1)创建表t1，有1个family name：f1，版本数均为5;
(2)给表t1的添加一行记录，其中，rowkey是rowkey001，family name是f1，column name是col1，value是value01，timestamp为系统默认。
(3)查询表t1，"rowke001"中的f1下的所有列值
我的答案：
hbase(main)>create ‘t1’,{NAME=>‘f1’,VERSIONS=>5}
hbase(main)>put ‘t1’,‘rowkey001’,‘f1:col1’,‘value 01’
hbase(main)>get ‘t1’,‘rowkey001’

2 请简述在V3个节点（Master,Slave1,Slave2）的Hadoop分布式集群中安装操作步骤（只描述主要操作步骤，不用描述实现的细节）。
我的答案：
解压安装包；修改配置文件，设置JDk目录；配置核心组件；修改文件配置；配置计算框架；在master节点配置slaves文件；将hadoop文件复制到其它两个节点；同时在三个节点配置Hadoop启动的系统环境变量；同时在三个节点上创建数据目录。

3根据下面的要要求，在Hive Shell中执行相应的命令完成相应的操作。
（1）创建一个外部表bigdata_user,其结构信息如下所示。数据在hdfs中的存放路径为：‘hdfs://localhost:9000/bigdatacase/dataset’，分隔符为‘\t’
id int
uid string
item_id string
behavior_type int
item_category string
visit_date date
province string
（2）计算出表内有多少条行数据
（3）查看前10条信息
我的答案：
create external table bigdata_user(id int,uid string,item_id string,behavior_type int,item_category string,visit_date date,province string)
row format delimited
fields terminated by ‘\t’
location ‘hdfs://localhost:9090/bigdatacase/dataset’;

select count(*) from bigdata_user;

select* from bigdata_user where 1=1 limit 10;

1下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能?
A、利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理
B、利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析
C、构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全
D、把实时采集的数据作为流计算系统的输入,进行实时处理分析
我的答案：A

2下列哪个不属于Hadoop的特性?
A、成本高
B、高可靠性
C、高容错性
D、运行在Linux平台上
我的答案：A

3 Hadoop框架中最核心的设计是什么?
A、为海量数据提供存储的HDFS和对数据进行计算的MapReduce
B、提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务
C、Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中
D、Hadoop被视为事实上的大数据处理标准
我的答案：A

4在一个基本的Hadoop集群中,DataNode主要负责什么?
A、负责执行由JobTracker指派的任务
B、协调数据计算任务
C、负责协调集群中的数据存储
D、存储被拆分的数据块
我的答案：D

5 Hadoop最初是由谁创建的?
A、Lucene
B、Doug Cutting
C、Apache
D、MapReduce
我的答案：B

6下列哪一个不属于Hadoop的大数据层的功能?
A、数据挖掘
B、离线分析
C、实时计算
D、BI分析
我的答案：C

7在一个基本的Hadoop集群中,SecondaryNameNode主要负责什么?
A、帮助NameNode收集文件系统运行的状态信息
B、负责执行由JobTracker指派的任务
C、协调数据计算任务
D、负责协调集群中的数据存储
我的答案：A

8下面哪一项不是Hadoop的特性?
A、可扩展性高
B、只支持少数几种编程语言
C、成本低
D、能在linux上运行
我的答案：B

9在Hadoop项目结构中,HDFS指的是什么?
A、分布式文件系统
B、分布式并行编程模型
C、资源管理和调度器
D、Hadoop上的数据仓库
我的答案：A

10在Hadoop项目结构中,MapReduce指的是什么?
A、分布式并行编程模型
B、流计算框架
C、Hadoop上的工作流管理系统
D、提供分布式协调一致性服务
我的答案：A

11下面哪个不是Hadoop1.0的组件:( )
A、HDFS
B、MapReduce
C、YARN
D、NameNode和DataNode
我的答案：C

12分布式文件系统指的是什么?
A、把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
B、用于在Hadoop与传统数据库之间进行数据传递
C、一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
D、一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据
我的答案：A

13下面哪一项不属于计算机集群中的节点?
A、主节点(Master Node)
B、源节点(SourceNode)
C、名称结点(NameNode)
D、从节点(Slave Node)
我的答案：B

14在Hadoop2.0以上版本中，HDFS中,默认一个块多大?
A、128MB
B、32KB
C、128KB
D、16KB
我的答案：A

15下列哪一项不属于HDFS采用抽象的块概念带来的好处?
A、简化系统设计
B、支持大规模文件存储
C、强大的跨平台兼容性
D、适合数据备份
我的答案：C

16在HDFS中,NameNode的主要功能是什么?
A、维护了block id 到datanode本地文件的映射关系
B、存储文件内容
C、文件内存保存在磁盘中
D、存储元数据
我的答案：D

17下面对FsImage的描述,哪个是错误的?
A、FsImage文件没有记录每个块存储在哪个数据节点
B、FsImage文件包含文件系统中所有目录和文件inode的序列化形式
C、FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据
D、FsImage文件记录了每个块具体被存储在哪个数据节点
我的答案：D

18下面对SecondaryNameNode第二名称节点的描述,哪个是错误的?
A、SecondaryNameNode一般是并行运行在多台机器上
B、它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间
C、SecondaryNameNode通过HTTPGET方式从NameNode上获取到FsImage和EditLog文件,并下载到本地的相应目录下
D、SecondaryNameNode是HDFS架构中的一个组成部分
我的答案：A

19 HDFS采用了什么模型?
A、分层模型
B、主从结构模型
C、管道-过滤器模型
D、点对点模型
我的答案：B

20在Hadoop项目结构中,HDFS指的是什么?
A、分布式文件系统
B、流数据读写
C、资源管理和调度器
D、Hadoop上的数据仓库
我的答案：A

21下列关于HDFS的描述,哪个不正确?
A、HDFS还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能
B、HDFS采用了主从(Master/Slave)结构模型
C、HDFS采用了冗余数据存储,增强了数据可靠性
D、HDFS采用块的概念,使得系统的设计变得更加复杂
我的答案：D

22下列关于BigTable的描述,哪个是错误的?
A、爬虫持续不断地抓取新页面,这些页面每隔一段时间地存储到BigTable里
B、BigTable是一个分布式存储系统
C、BigTable起初用于解决典型的互联网搜索问题
D、网络搜索应用查询建立好的索引,从BigTable得到网页
我的答案：A

23下列选项中,关于HBase和BigTable的底层技术对应关系,哪个是错误的?
A、GFS与HDFS相对应
B、GFS与Zookeeper相对应
C、MapReduce与Hadoop MapReduce相对应
D、Chubby与Zookeeper相对应
我的答案：B

24在HBase中,关于数据操作的描述,下列哪一项是错误的?
A、HBase采用了更加简单的数据模型,它把数据存储为未经解释的字符串
B、HBase操作不存在复杂的表与表之间的关系
C、HBase不支持修改操作
D、HBase在设计上就避免了复杂的表和表之间的关系
我的答案：C

25 Pig主要用在哪个场合?
A、适合Hadoop MapReduce作业并行批处理HBase表数据
B、适合HBase管理使用
C、适合其他异构系统在线访问HBase表数据
D、适合做数据统计
我的答案：d

26 HBase中需要根据某些因素来确定一个单元格,这些因素可以视为一个“四维坐标”,下面哪个不属于“四维坐标”?
A、行键
B、关键字
C、列族
D、时间戳
我的答案：B

27关于HBase的三层结构中各层次的名称和作用的说法,哪个是错误的?
A、Zookeeper文件记录了用户数据表的Region位置信息
B、-ROOT-表记录了.META.表的Region位置信息
C、.META.表保存了HBase中所有用户数据表的Region位置信息
D、Zookeeper文件记录了-ROOT-表的位置信息
我的答案：A

28下面关于主服务器Master主要负责表和Region的管理工作的描述,哪个是错误的?
A、在Region分裂或合并后,负责重新调整Region的分布
B、对发生故障失效的Region服务器上的Region进行迁移
C、管理用户对表的增加、删除、修改、查询等操作
D、不支持不同Region服务器之间的负载均衡
我的答案：D

29 HBase只有一个针对行健的索引,如果要访问HBase表中的行,下面哪种方式是不可行的?
A、通过单个行健访问
B、通过时间戳访问
C、通过一个行健的区间来访问
D、全表扫描
我的答案：B

30下面关于Region的说法,哪个是错误的?
A、同一个Region不会被分拆到多个Region服务器
B、为了加快访问速度,.META.表的全部Region都会被保存在内存中
C、一个-ROOT-表可以有多个Region
D、为了加速寻址,客户端会缓存位置信息,同时,需要解决缓存失效问题
我的答案：C

31下列哪个不属于NoSQL数据库的特点?
A、灵活的可扩展性
B、灵活的数据模型
C、与云计算紧密融合
D、数据存储规模有限
我的答案：D

32下面关于NoSQL和关系数据库的简单比较,哪个是错误的?
A、RDBMS有关系代数理论作为基础,NoSQL没有统一的理论基础
B、NoSQL很难实现横向扩展,RDBMS可以很容易通过添加更多设备来支持更大规模的数据
C、RDBMS需要定义数据库模式,严格遵守数据定义,NoSQL一般不存在数据库模式,可以自由灵活定义并存储各种不同类型的数据
D、RDBMS借助于索引机制可以实现快速查询,很多NoSQL数据库没有面向复杂查询的索引
我的答案：B

33下列哪一项不属于NoSQL的四大类型?
A、文档数据库
B、图数据库
C、列族数据库
D、时间戳数据库
我的答案：D

34下列关于键值数据库的描述,哪一项是错误的?
A、扩展性好,灵活性好
B、大量写操作时性能高
C、无法存储结构化信息
D、条件查询效率高
我的答案：D

35下列关于列族数据库的描述,哪一项是错误的?
A、查找速度慢,可扩展性差
B、功能较少,大都不支持强事务一致性
C、容易进行分布式扩展
D、复杂性低
我的答案：A

36下面关于MongoDB说法,哪一项是正确的?
A、具有较差的水平可扩展性
B、设置个别属性的索引来实现更快的排序
C、提供了一个面向文档存储,操作复杂
D、可以实现替换完成的文档(数据)或者一些指定的数据字段
我的答案：D

37下列关于NoSQL与关系数据库的比较,哪个说法是错误的?
A、在一致性方面,RDBMS强于NoSQL
B、在数据完整性方面,RDBMS容易实现
C、在扩展性方面,NoSQL 比较好
D、在可用性方面,NoSQL优于RDBMS
我的答案：D

38关于文档数据库的说法,下列哪一项是错误的?
A、数据是规则的
B、性能好(高并发)
C、缺乏统一的查询语法
D、复杂性低
我的答案：A

39下列关于阿里云RDS的说法,哪个是错误的?
A、RDS是阿里云提供的关系型数据库服务
B、RDS由专业数据库管理团队维护
C、RDS具有安全稳定、数据可靠、自动备份
D、RDS实例,是用户购买RDS服务的基本单位,在实例中,用户只能创建一个数据库
我的答案：D

40下列传统并行计算框架,说法错误的是哪一项?
A、刀片服务器、高速网、SAN,价格贵,扩展性差上
B、共享式(共享内存/共享存储),容错性好
C、编程难度高
D、实时、细粒度计算、计算密集型
我的答案：B

41下列关于MapReduce模型的描述,错误的是哪一项?
A、MapReduce采用“ 分而治之”策略
B、MapReduce设计的一个理念就是“ 计算向数据靠拢”
C、MapReduce框架采用了Master/Slave架构
D、MapReduce应用程序只能用Java来写
我的答案：D

42下列关于MapReduce工作流程,哪个描述是正确的?
A、所有的数据交换都是通过MapReduce框架自身去实现的
B、不同的Map任务之间会进行通信
C、不同的Reduce任务之间可以发生信息交换
D、用户可以显式地从一台机器向另一台机器发送消息
我的答案：A

43下列关于MapReduce的说法,哪个描述是错误的?
A、MapReduce具有广泛的应用,比如关系代数运算、分组与聚合运算等
B、MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数
C、编程人员在不会分布式并行编程的情况下,也可以很容易将自己的程序运行在分布式系统上,完成海量数据集的计算
D、不同的Map任务之间可以进行通信
我的答案：D

44下列关于Map和Reduce函数的描述,哪个是错误的?
A、Map将小数据集进一步解析成一批<key,value>对,输入Map函数中进行处理
B、Map每一个输入的<k 1 ,v 1 >会输出一批<k 2 ,v 2 >。<k 2 ,v 2 >是计算的中间结果
C、Reduce输入的中间结果<k 2 ,List(v 2 )>中的List(v 2 )表示是一批属于不同k 2 的value
D、Reduce输入的中间结果<k 2 ,List(v 2 )>中的List(v 2 )表示是一批属于同一个k 2 的value
我的答案：C

45下面哪一项不是MapReduce体系结构主要部分?
A、Client
B、JobTracker
C、TaskTracker以及Task
D、Job
我的答案：A

46关于MapReduce1.0的体系结构的描述,下列说法错误的?
A、Task 分为Map Task 和Reduce Task 两种,分别由JobTracker 和TaskTracker 启动
B、slot 分为Map slot 和Reduce slot 两种,分别供MapTask 和Reduce Task 使用
C、TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
D、TaskTracker 会周期性接收JobTracker 发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)
我的答案：A

47下列说法错误的是?
A、Hadoop MapReduce是MapReduce的开源实现,后者比前者使用门槛低很多
B、MapReduce采用非共享式架构,容错性好
C、MapReduce主要用于批处理、实时、计算密集型应用
D、MapReduce采用“ 分而治之”策略
我的答案：C

48下面哪个选项不属于Hadoop1.0 的问题?
A、单一名称节点,存在单点失效问题
B、单一命名空间,无法实现资源隔离
C、资源管理效率低
D、很难上手
我的答案：D

49下列哪项是Hadoop生态系统中Spark的功能?
A、处理大规模数据的脚本语言
B、工作流和协作服务引擎,协调Hadoop上运行的不同任务
C、不支持DAG作业的计算框架
D、基于内存的分布式并行编程框架,具有较高的实时性,并且较好支持迭代计算
我的答案：D

50在Hadoop生态系统中,Kafka主要解决Hadoop 中存在哪些的问题?
A、Hadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介
B、不同的MapReduce任务之间存在重复操作,降低了效率
C、延迟高,而且不适合执行迭代计算
D、抽象层次低,需要手工编写大量代码
我的答案：A

51下列哪一个不属于HDFS1.0 中存在的问题?
A、无法水平扩展
B、单点故障问题
C、单一命名空间
D、系统整体性能受限于单个名称节点的吞吐量
我的答案：A

52关于HDFS Federation 的设计的描述,哪个是错误的?
A、属于不同命名空间的块可以构成同一个“块池”
B、HDFS Federation中,所有名称节点会共享底层的数据节点存储资源,数据节点向所有名称节点汇报
C、设计了多个相互独立的名称节点
D、HDFS的命名服务能够水平扩展
我的答案：A

53下列关于MapReduce1.0的描述,错误的是?
A、JobTracker“大包大揽”导致任务过重
B、不存在单点故障
C、容易出现内存溢出(分配资源只考虑MapReduce任务数,不考虑CPU、内存)
D、资源划分不合理(强制划分为slot ,包括Map slot和Reduce slot)
我的答案：B

54下列哪个不属于YARN体系结构中ResourceManager的功能?
A、处理客户端请求
B、监控NodeManager
C、资源分配与调度
D、处理来自ApplicationMaster的命令
我的答案：D

55下列哪个不属于YARN体系结构中ApplicationMaster的功能?
A、任务调度、监控与容错
B、为应用程序申请资源
C、将申请的资源分配给内部任务
D、处理来自ResourceManger的命令
我的答案：D

56下列关于Hive基本操作命令的解释错误的是:( )
A、create database userdb;//创建数据库userdb
B、create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age
C、load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表
D、insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据
我的答案：C

57下面哪个不可能是Hive的执行引擎:( )
A、MapReduce
B、Tez
C、Storm
D、Spark
我的答案：C

58下面描述错误的是:( )
A、Hive的功能十分强大,可以支持采用SQL方式查询Hadoop平台上的数据
B、在实际应用中,Hive也暴露出不稳定的问题,在极少数情况下,甚至会出现端口不响应或者进程丢失的问题
C、在Hive HA中,在Hadoop集群上构建的数据仓库是由单个Hive实例进行管理的
D、在Hive HA中,客户端的查询请求首先访问HAProxy,由HAProxy对访问请求进行转发
我的答案：C

59以下哪个不是数据仓库的特性:( )
A、面向主题的
B、集成的
C、动态变化的
D、反映历史变化的
我的答案：C

60下面关于Hive的描述错误的是:( )
A、Hive是一个构建在Hadoop之上的数据仓库工具
B、Hive是由Facebook公司开发的
C、Hive在某种程度上可以看作是用户编程接口,其本身并不存储和处理数据
D、Hive定义了简单的类似SQL的查询语言–HiveQL,它与大部分SQL语法无法兼容
我的答案：D

61下面关于Hive的描述错误的是:( )
A、HBase与Hive的功能是互补的,它实现了Hive不能提供的功能
B、当采用MapReduce作为执行引擎时,用HiveQL语句编写的处理逻辑,最终都要转化为MapReduce任务来运行
C、Hive一般用于处理静态数据,主要是BI报表数据
D、Hive主要是用于满足实时数据流的处理需求
我的答案：D

62关于Hive和传统关系数据库的对比分析,下面描述错误的是:( )
A、Hive一般依赖于分布式文件系统HDFS,而传统数据库则依赖于本地文件系统
B、传统的关系数据库可以针对多个列构建复杂的索引,Hive不支持索引
C、Hive和传统关系数据库都支持分区
D、传统关系数据库很难实现横向扩展,Hive具有很好的水平扩展性
我的答案：B

63以下哪个不是Hive的用户接口模块:( )
A、PMI
B、HWI(Hive Web Interface)
C、JDBC/ODBC
D、Thrift Server
我的答案：A
64下面关于 zookeeper 的描述，错误的是
A、zookeeper是一个分布式小文件存储系统
B、zookeeper可以为其他软件进行选主服务
C、zookeeper中的znode共用有两种类型
D、在Dubbo中，zookeeper提供了注册中心服务
我的答案：C

65下面属于 zookeeper 特殊的性质有
A、提供了抽象为目录树的文件系统
B、支持小文件存储
C、事务性请求由老大统一处理
D、目录树中节点兼具目录和文件特点
我的答案： b

66 Zookeeper 中为什么会有 Leader
A、统一管理
B、一台机器操作，其他集群都可以共享
C、提高性能
D、以上说法都正确
我的答案：D

67在安装hdfs时其中fs.defaultFS+是配置在下列哪个文件（）
A、core-site.xml
B、hdfs-site.xml
C、mapred-site.xml
D、yarn-site.xml
我的答案：A

68在安装Hadoop时，需要配置Hadoop依赖的JAVA_HOME配置项是属于以下哪个文件( )
A、core-site.xml
B、hdfs-site.xml
C、mapred-site.xml
D、hadoop-env.sh
我的答案：D

69在Hadoop中，端口50070默认是Hadoop哪个服务的端口？
A、Namenode
B、DataNode
C、SecondNameNode
D、Yarn
我的答案：A

70想要修改Hadoop上的HDFS默认副本数需要修改修改哪个配置文件的配置项？
A、slaves
B、hadoop-env.sh
C、hdfs-site.xml
D、core-site.xml
我的答案：C

71下面哪个目录保存了Hadoop集群的配置文件( )
A、bin
B、sbin
C、etc/hadoop
D、share
我的答案：C

72 Hadoop有三种安装模式，下列安装模式中没有HDFS、只能测试MapReduce程序是（）
A、单机模式
B、伪分布式模式
C、完全分布式模式
D、分布模式
我的答案：A

73Hadoop完全分布模式配置免密登录是要？（）
A、实现主节点到其他节点免密登录
B、实现从节点到其他节点免密登录
C、主节点和从节点任意两个节点之间免密登录
D、以上都正确
我的答案：C

二、多选题
1大数据具有哪些特点?
A、数据的“大量化”
B、数据的“快速化”
C、数据的“多样化”
D、数据的“价值密度比较低”
我的答案：ABCD

2下面哪个属于大数据的应用领域?
A、智能医疗研发
B、监控身体情况
C、实时掌握交通状况
D、金融交易
我的答案：ABCD

3大数据的两个核心技术是什么?
A、分布式存储
B、分布式应用
C、分布式处理
D、集中式存储
我的答案：AC

4云计算关键技术包括什么?
A、分布式存储
B、虚拟化
C、分布式计算
D、多租户
我的答案：ABCD

5大数据对社会发展的影响有哪些?
A、大数据成为一种新的决策方式
B、大数据应用促进信息技术与各行业的深度融合
C、大数据开发推动新技术和新应用的不断涌现
D、大数据对社会发展没有产生积极影响
我的答案：ABC

6 Hadoop的特性包括哪些?
A、高可扩展性
B、支持多种编程语言
C、成本低
D、运行在Linux平台上
我的答案：ABCD

7下面哪个是Hadoop2.0的组件?
A、ResourceManager
B、JobTracker
C、TaskTracker
D、NodeManager
我的答案：AD

8一个基本的Hadoop集群中的节点主要包括什么?
A、DataNode:存储被拆分的数据块
B、JobTracker:协调数据计算任务
C、TaskTracker:负责执行由JobTracker指派的任务
D、SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息
我的答案：BC

9下列关于Hadoop的描述,哪些是正确的?
A、为用户提供了系统底层细节透明的分布式基础架构
B、具有很好的跨平台特性
C、可以部署在廉价的计算机集群中
D、曾经被公认为行业大数据标准开源软件
我的答案：ABCD

10 Hadoop集群的整体性能主要受到什么因素影响?
A、CPU性能
B、内存
C、网络
D、存储容量
我的答案：ABCD

11下列关于Hadoop的描述,哪些是错误的?
A、只能支持一种编程语言
B、具有较差的跨平台特性
C、可以部署在廉价的计算机集群中
D、曾经被公认为行业大数据标准开源软件
我的答案：AB

12下列哪一项不属于Hadoop的特性?
A、较低可扩展性
B、只支持java语言
C、成本低
D、运行在Linux平台上
我的答案：AB

13 HDFS要实现以下哪几个目标?
A、兼容廉价的硬件设备
B、流数据读写
C、大数据集
D、复杂的文件模型
我的答案：ABC

14 HDFS特殊的设计,在实现优良特性的同时,也使得自身具有一些应用局限性,主要包括以下哪几个方面?
A、较差的跨平台兼容性
B、无法高效存储大量小文件
C、不支持多用户写入及任意修改文件
D、不适合低延迟数据访问
我的答案：BCD

15 HDFS采用抽象的块概念可以带来以下哪几个明显的好处?
A、支持大规模文件存储
B、支持小规模文件存储
C、适合数据备份
D、简化系统设计
我的答案：ACD

16在HDFS中,名称节点( )主要保存了哪些核心的数据结构?
A、FsImage
B、DN8
C、Block
D、EditLog
我的答案：AD

17数据节点( )的主要功能包括哪些?ABC
A、负责数据的存储和读取
B、根据客户端或者是名称节点的调度来进行数据的存储和检索
C、向名称节点定期发送自己所存储的块的列表
D、用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间
我的答案：ABC

18 HDFS的命名空间包含什么?
A、磁盘
B、文件
C、块
D、目录
我的答案：BCD

19下列对于客服端的描述,哪些是正确的?
A、客户端是用户操作HDFS最常用的方式,HDFS在部署时都提供了客户端
B、HDFS客户端是一个库,暴露了HDFS文件系统接口
C、严格来说,客户端并不算是HDFS的一部分
D、客户端可以支持打开、读取、写入等常见的操作
我的答案：ABCD

20 HDFS只设置唯一一个名称节点,这样做虽然大大简化了系统设计,但也带来了哪些明显的局限性?
A、命名空间的限制
B、性能的瓶颈
C、隔离问题
D、集群的可用性
我的答案：ABCD

21 HDFS数据块多副本存储具备以下哪些优点?
A、加快数据传输速度
B、容易检查数据错误
C、保证数据可靠性
D、适合多平台上运行
我的答案：ABC

22 HDFS具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?
A、数据源太大
B、数据节点出错
C、数据出错
D、名称节点出错
我的答案：BCD

23关系数据库已经流行很多年,并且Hadoop已经有了HDFS和MapReduce,为什么需要HBase?
A、Hadoop可以很好地解决大规模数据的离线批量处理问题,但是,受限于Hadoop MapReduce编程框架的高延迟数据处理机制,使得Hadoop无法满足大规模数据实时处理应用的需求上
B、HDFS面向批量访问模式,不是随机访问模式
C、传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题
D、传统关系数据库在数据结构变化时一般需要停机维护;空列浪费存储空间
我的答案：ABCD

24 HBase与传统的关系数据库的区别主要体现在以下哪几个方面?
A、数据类型
B、数据操作
C、存储模式
D、数据维护
我的答案：ABCD

25 HBase访问接口类型包括哪些?
A、Native Java API
B、HBase Shell
C、Thrift Gateway
D、REST Gateway
我的答案：ABCD

26下列关于数据模型的描述,哪些是正确的?
A、HBase采用表来组织数据,表由行和列组成,列划分为若干个列族
B、每个HBase表都由若干行组成,每个行由行键(row key)来标识
C、列族里的数据通过列限定符(或列)来定位
D、每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引
我的答案：ABCD

27 HBase的实现包括哪三个主要的功能组件?
A、库函数:链接到每个客户端
B、一个Master主服务器
C、许多个Region服务器
D、廉价的计算机集群
我的答案：ABC

28 HBase的三层结构中,三层指的是哪三层?
A、Zookeeper文件
B、-ROOT-表
C、.META.表
D、数据类型
我的答案：ABC

29以下哪些软件可以对HBase进行性能监视?
A、Master-status(自带)
B、Ganglia
C、OpenTSDB
D、Ambari
我的答案：ABCD

30 Zookeeper是一个很好的集群管理工具,被大量用于分布式计算,它主要提供什么服务?
A、配置维护
B、域名服务
C、分布式同步
D、负载均衡服务
我的答案：ABC

31下列关于Region服务器工作原理的描述,哪些是正确的?
A、每个Region服务器都有一个自己的HLog 文件
B、每次刷写都生成一个新的StoreFile,数量太多,影响查找速度
C、合并操作比较耗费资源,只有数量达到一个阈值才启动合并
D、Store是Region服务器的核心
我的答案：ABCD

32下列关于HLog工作原理的描述,哪些是正确的?
A、分布式环境必须要考虑系统出错。HBase采用HLog保证
B、HBase系统为每个Region服务器配置了一个HLog文件
C、Zookeeper会实时监测每个Region服务器的状态
D、Master首先会处理该故障Region服务器上面遗留的HLog文件
我的答案：ABCD

33关系数据库已经无法满足Web2.0的需求,主要表现在以下几个方面?
A、无法满足海量数据的管理需求
B、无法满足数据高并发的需求
C、无法满足高可扩展性和高可用性的需求
D、使用难度高
我的答案：ABC

34下列关于MySQL集群的描述,哪些是正确的?
A、复杂性:部署、管理、配置很复杂
B、数据库复制:MySQL主备之间一般采用复制方式,很多时候是异步复制
C、扩容问题:如果系统压力过大需要增加新的机器,这个过程涉及数据重新划分
D、动态数据迁移问题:如果某个数据库组压力过大,需要将其中部分数据迁移出去
我的答案：ACD

35关系数据库引以为傲的两个关键特性(完善的事务机制和高效的查询机制),到了Web2.0时代却成了鸡肋,主要表现在以下哪几个方面?
A、Web2.0 网站系统通常不要求严格的数据库事务
B、Web2.0 网站系统基本上不用关系数据库来存储数据
C、Web2.0 并不要求严格的读写实时性
D、Web2.0 通常不包含大量复杂的SQL 查询
我的答案：ACD

36下面关于NoSQL与关系数据库的比较,哪些是正确的?
A、关系数据库以完善的关系代数理论作为基础,有严格的标准
B、关系数据库可扩展性较差,无法较好支持海量数据存储
C、NoSQL可以支持超大规模数据存储
D、NoSQL 数据库缺乏数学理论基础,复杂查询性能不高
我的答案：ABCD

37下列关于文档数据库的描述,哪些是正确的?
A、性能好(高并发),灵活性高
B、具备统一的查询语法
C、文档数据库支持文档间的事务
D、复杂性低,数据结构灵活
我的答案：AD

38下列关于图数据库的描述,哪些是正确的?
A、专门用于处理具有高度相互关联关系的数据
B、比较适合于社交网络、模式识别、依赖分析、推荐系统以及路径寻找等问题
C、灵活性高,支持复杂的图算法
D、复杂性高,只能支持一定的数据规模
我的答案：ABCD

39 NoSQL的三大基石?
A、CAP
B、最终一致性
C、BASE
D、DN8
我的答案：ABC

40关于NoSQL的三大基石之一的CAP,下列哪些说法是正确的?
A、一致性,是指任何一个读操作总是能够读到之前完成的写操作的结果量
B、一个分布式系统可以同时满足一致性、可用性和分区容忍性这三个需求
C、可用性,是指快速获取数据
D、分区容忍性,是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行
我的答案：ACD

41当处理CAP的问题时,可以有哪几个明显的选择?
A、CA:也就是强调一致性©和可用性(A),放弃分区容忍性§
B、CP:也就是强调一致性
C、和分区容忍性§,放弃可用性(A)
© AP:也就是强调可用性(A)和分区容忍性§,放弃一致性©
D、CAP:也就是同时兼顾可用性(A)、分区容忍性§和一致性©,当时系统性能会下降很多
我的答案：ABC

42数据库事务具有ACID四性,下面哪几项属于四性?
A、原子性
B、持久性
C、间断性
D、一致性
我的答案：ABD

43云数据库具有以下哪些特性?
A、动态可扩展
B、高可用性
C、免维护
D、安全
我的答案：ABCD

44下列关于云数据库的描述,哪些是正确的?
A、Amazon是云数据库市场的先行者
B、Google Cloud SQL是谷歌公司推出的基于MySQL的云数据库
C、从数据模型的角度来说,云数据库并非一种全新的数据库技术
D、云数据库并没有专属于自己的数据模型
我的答案：ABCD

45 UMP系统架构依赖的哪些开源组件?
A、Mnesia
B、LVS
C、RabbitMQ
D、ZooKeeper
我的答案：ABCD

46下列关于UMP系统架构的描述,哪些是正确的?
A、信息统计服务器定期将采集到的用户的连接数
B、Web控制台无法向用户提供系统管理界面
C、LVS(Linux Virtual Server)即Linux虚拟服务器
D、UMP系统借助于LVS来实现集群内部的负载均衡
我的答案：ACD

47为什么说云数据库是个性化数据存储需求的理想选择?
A、云数据库可以满足大企业的海量数据存储需求
B、云数据库可以满足中小企业的低成本数据存储需求
C、云数据库可以满足企业动态变化的数据存储需求
D、前期零投入、后期免维护的数据库服务,可以很好满足它们的需求
我的答案：ABCD

48下列关于云数据库与其他数据库的关系,哪些是正确的?
A、从数据模型的角度来说,云数据库并非一种全新的数据库技术
B、云数据库并没有专属于自己的数据模型,云数据库所采用的数据模型可以是关系数据库所使用的关系模型
C、同一个公司只能提供采用不同数据模型的单个云数据库服务
D、许多公司在开发云数据库时,后端数据库都是直接使用现有的各种关系数据库或NoSQL数据库产品
我的答案：ABD

49以下哪些是Amazon的云数据库产品?
A、Amazon RDS:云中的关系数据库
B、Amazon SimpleDB:云中的键值数据库
C、Amazon DynamoDB:云中的数据仓库
D、Amazon ElastiCache:云中的分布式内存缓存
我的答案：ABC

50 Microsoft的云数据库产品SQL Azure具有以下哪些特性?
A、属于关系型数据库:支持使用TSQL来管理、创建和操作云数据库
B、支持存储过程:它的数据类型、存储过程和传统的SQL Server具有很大的相似性
C、支持大量数据类型
D、支持云中的事务:支持局部事务,但是不支持分布式事务
我的答案：ABCD

51 MapReduce相较于传统的并行计算框架有什么优势?
A、非共享式,容错性好
B、普通PC机,便宜,扩展性好
C、编程简单,只要告诉MapReduce做什么即可
D、批处理、非实时、数据密集型
我的答案：ABCD

52 MapReduce体系结构主要由以下那几个部分构成?
A、Client
B、JobTracker
C、TaskTracker
D、Task
我的答案：ABCD

53下列关于MapReduce的体系结构的描述,说法正确的有?
A、用户编写的MapReduce程序通过Client提交到JobTracker端
B、JobTracker负责资源监控和作业调度
C、TaskTracker监控所有TaskTracker与Job的健康状况
D、TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
我的答案：ABD

54 MapReduce的作业主要包括什么?
A、从磁盘或从网络读取数据,即IO密集工作
B、计算数据,即CPU密集工作
C、针对不同的工作节点选择合适硬件类型
D、负责协调集群中的数据存储
我的答案：AB

55对于MapReduce 而言,其处理单位是split。split 是一个逻辑概念,它包含哪些元数据信息?
A、数据起始位置
B、数据长度
C、数据所在节点
D、数据大小
我的答案：ABCD

56下列关于Map 端的Shuffle的描述,哪些是正确的?
A、MapReduce默认为每个Map任务分配1000MB缓存
B、多个溢写文件归并成一个或多个大文件,文件中的键值对是排序的
C、当数据很少时,不需要溢写到磁盘,直接在缓存中归并,然后输出给Reduce
D、每个Map任务分配多个缓存,使得任务运行更有效率
我的答案：BC
57 MapReduce的具体应用包括哪些?
A、关系代数运算(选择、投影、并、交、差、连接)
B、分组与聚合运算
C、矩阵-向量乘法
D、矩阵乘法
我的答案：ABCD
58 MapReduce执行的全过程包括以下哪几个主要阶段?
A、从分布式文件系统读入数据
B、执行Map任务输出中间结果
C、通过 Shuffle阶段把中间结果分区排序整理后发送给Reduce任务
D、执行Reduce任务得到最终结果并写入分布式文件系统
我的答案：ABCD

59下列说法正确的是?
A、MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及Task
B、Task 分为Map Task 和Reduce Task 两种,均由TaskTracker 启动
C、在MapReduce工作流程中,所有的数据交换都是通过MapReduce框架自身去实现的
D、在MapReduce工作流程中,用户不能显式地从一台机器向另一台机器发送消息
我的答案：ABCD
60 Hadoop1.0的核心组件( ),下列哪项是它的不足?B
A、抽象层次高
B、表达能力有限,抽象层次低,需人工编码
C、价格昂贵
D、可维护性低
我的答案：B

61下列选项中,哪些属于Hadoop1.0的核心组件的不足之处?
A、实时性差(适合批处理,不支持实时交互式)
B、资源浪费(Map和Reduce分两阶段执行)
C、执行迭代操作效率低
D、难以看到程序整体逻辑
我的答案：ABCD
62 Hadoop的优化与发展主要体现在哪几个方面?
A、Hadoop自身核心组件MapReduce的架构设计改进
B、Hadoop自身核心组件HDFS的架构设计改进
C、Hadoop生态系统其它组件的不断丰富
D、Hadoop生态系统减少不必要的组件,整合系统
我的答案：ABC

63下列哪些属于Hadoop2.0相对于Hadoop1.0的改进?
A、设计了HDFS HA
B、提供名称节点热备机制
C、设计了HDFS Federation,管理多个命名空间
D、设计了新的资源管理框架YARN
我的答案：ABCD

64下面哪个属于不断完善的Hadoop生态系统中的组件?
A、Pig
B、Tez
C、Kafka
D、DN8
我的答案：ABC

65 HDFS1.0 主要存在哪些问题?
A、单点故障问题
B、不可以水平扩展
C、单个名称节点难以提供不同程序之间的隔离性
D、系统整体性能受限于单个名称节点的吞吐量
我的答案：ACD

66 HDFS Federation 相对于HDFS1.0 的优势主要体现在哪里?
A、能够解决单点故障问题
B、HDFS 集群扩展性
C、性能更高效
D、良好的隔离性
我的答案：BCD

67 JobTracker主要包括哪三大功能?
A、资源管理
B、任务调度
C、任务监控
D、数据即服务
我的答案：ABC

68 YARN 体系结构主要包括哪三部分?
A、ResourceManager
B、NodeManager
C、DataManager
D、ApplicationMaster
我的答案：ABD

69在YARN体系结构中,ApplicationMaster主要功能包括哪些?
A、当用户作业提交时,ApplicationMaster与ResourceManager协商获取资源,ResourceManager会以容器的形式为ApplicationMaster分配资源
B、把获得的资源进一步分配给内部的各个任务(Map任务或Reduce任务),实现资源的“二次分配”
C、定时向ResourceManager发送“心跳”消息,报告资源的使用情况和应用的进度信息
D、向ResourceManager汇报作业的资源使用情况和每个容器的运行状态
我的答案：ABC

70下列说法正确的是:( )
A、数据仓库Hive不需要借助于HDFS就可以完成数据的存储
B、Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上
C、Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据
D、HiveQL语法与传统的SQL语法很相似
我的答案：BCD

71以下属于Hive的基本数据类型是:( )
A、TINYINT
B、FLOAT
C、STRING
D、BINARY
我的答案：ABCD

72数据仓库Hive的执行引擎可以是:( )
A、Tez
B、MapReduce
C、Pig
D、Spark
我的答案：ABD

73以下哪些是数据仓库的特性:( )
A、面向主题的(Subject Oriented)
B、集成的(Integrated)
C、相对稳定的(Non-Volatile)
D、反映历史变化
我的答案：ABCD

74传统数据仓库面临哪些挑战:( )
A、无法满足快速增长的海量数据存储需求
B、无法有效处理不同类型的数据
C、具有很强的扩展性
D、计算和处理能力不足
我的答案：ABD

75 Hadoop生态系统中Hive与其他部分的关系的描述正确的是:( )
A、HDFS作为高可靠的底层存储,用来存储Hive的海量数据
B、MapReduce对这些海量数据进行批处理,实现Hive的高性能计算
C、当采用MapRedue作为Hive的执行引擎时,用HiveQL语句编写的处理逻辑,最终都要转化为MapReduce任务来运行
D、HBase与Hive的功能是互补的,它实现了Hive不能提供的功能
我的答案：ABCD

76关于Hive与传统关系数据库的对比分析,下面描述正确的是:( )
A、在数据存储方面,Hive一般依赖于分布式文件系统HDFS,而传统数据库则依赖于本地文件系统
B、在索引方面,传统的关系数据库可以针对多个列构建复杂的索引,大幅度提升数据查询性能,而Hive不像传统的关系型数据库那样有键的概念,它只能提供有限的索引功能
C、在分区方面,传统的数据库提供分区功能来改善大型表以及具有各种访问模式的表的可伸缩性、可管理性,以及提高数据库效率;Hive不支持分区功能
D、在执行引擎方面,传统的关系数据库依赖自身的执行引擎,而Hive则依赖于MapReduce、Tez和Spark等执行引擎
我的答案：ABD

77 Hive主要由哪三个模块组成:( )
A、用户接口模块
B、用户查询模块
C、驱动模块
D、元数据存储模块
我的答案：ABD

78当采用MapReduce作为Hive的执行引擎时,下面描述正确的是:( )
A、当用户向Hive输入一段命令或查询(即HiveQL语句)时,Hive需要与Hadoop交互工作来完成该操作
B、命令或查询首先进入到驱动模块,由驱动模块中的编译器进行解析编译,并由优化器对该操作进行优化计算,然后交给执行器去执行
C、执行器通常的任务是启动一个或多个MapReduce任务,有时也不需要启动MapReduce任务
D、执行器通常的任务一定会包含Map和Reduce操作
我的答案：ABC

三、填空题
1在Pig Latin语言中，除了LOAD和STORE，在执行所有其他操作时，Pig Latin语句采用（关系）作为输入、输出。
2 Pig是一个基于Hadoop的大规模数据分析平台，它提供的类SQLE语言叫（Pig Latin ），该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的（ MapReduce ）运算。
3Pig 拥有大量的数据类型，不仅支持（包）、（元组）和映射等高级概念，还支持简单的数据类型，如 int、long、float、double、chararray 和 bytearray。

4在Apache Pig 中，元组（非唯一）的集合被称为（包）。

5 Sqoop工作机制是将导入或导出命令翻译成( MapReduce)程序来实现。

6 HBase依赖（Zookeeper）提供消息通信机制

7 HBase 靠(HDFS)存储底层数据依

8 HBase 分布式模式最少需要的节点数是（1）

9在安装hdfs时其中fs.defaultFS参数是配置文件（ core-site.xml）中配置定义的。

四、判断题

1在Pig Latin中。 GROUP 运算符用于在一个或多个关系中对数据进行分组，它收集具有相同key的数据√
2在Pig Latin中，JOIN 运算符用于组合来自两个或多个关系的记录。在执行连接操作时，我们从每个关系中声明一个（或一组）元组作为key。当这些key匹配时，两个特定的元组匹配，否则记录将被丢弃。√
3在Pig Latin中，CROSS 运算符计算两个或多个关系的向量积。 √
4 pache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。√
5 Sqoop是实现Hadoop生态系统与关系数据库之间传送数据的一种客户端工具×

6 Sqoop2支持将关系数库的内容导入到Hive或HBase.√

7 HBase 中的数据都是字节，且有各种类型×