大数据技术期末考试

目录判断判断1 数据主要是其它生产活动的一种副产品,自身难以直接产生商业效益。正确答案： ×难以产生经济效益那为什么还要用呢？2 MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为，移动数据需要大量的网络传输开销。正确答案： √3 物联网与云计算、大数据是相辅相成的关系，物联网就是指无线传感器。正确答案： ×物联网是一种概念，无线传感器是一种东西4 HDFS系统

王跃坤

13960人浏览 · 2021-06-29 20:00:49

王跃坤 · 2021-06-29 20:00:49 发布

单选

1 ，HDFS的命名空间不包含：（）
A、字节
B、文件
C、目录
D、块
正确答案：A

2 ，以下关于雷达图和平行坐标说法正确的是：（）
A、平行坐标的优势在于可以展示更大的数据量
B、在极坐标系中，雷达图等价于平行坐标
C、雷达图的优势在于可以展示更高的维度
D、在笛卡尔坐标系中，雷达图等价于平行坐标
正确答案：C

3 ，假设已经配置好环境变量，启动Hadoop和关闭Hadoop的命令分别是（）。
A、start-hdfs.sh，stop-hdfs.sh
B、start-dfs.sh，stop-dfs.sh
C、start-dfs.sh，stop-hdfs.sh
D、start-hdfs.sh，stop-dfs.sh
正确答案：B

4 ，以下关于平行坐标（ParallelCoordinates）说法正确的是：（）
A、可以用来展示数据在空间中的分布情况
B、每一个数据点由一根直线表示
C、每一个数据点由一根射线表示
D、每一维的属性值由相应线段的宽度表示
正确答案：A

5 ，在一个基本的Hadoop集群中，DataNode主要负责什么？（）
A、协调数据计算任务
B、存储被拆分的数据块
C、负责协调集群中的数据存储
D、负责执行由JobTracker指派的任务
正确答案：B

6 ，HDFS的名称节点保存两个核心的数据结构是（）
A、FsImage和Edit.new。
B、Map和EditLog
C、FsImage和EditLog。
D、FsImage和HLog
正确答案：C

7 ，下列关于MapReduce工作流程，哪个描述是正确的：（）
A、所有的数据交换都是通过MapReduce框架自身去实现的
B、不同的Map任务之间会进行通信
C、不同的Reduce任务之间可以发生信息交换
D、用户可以显式地从一台机器向另一台机器发送消息
正确答案：A

8 ，采用多副本冗余存储的优势不包含（）
A、保证数据可靠性
B、节约存储空间
C、加快数据传输速度
D、容易检查数据错误
正确答案：B

9 ，关于数据和信息的描述,以下哪项是不恰当的（）
A、数据是一种对事物的描述与记录
B、根据类型的不同,数据可分为连续型、离散型、符号型及文本型等
C、相对于原始的数据,信息是一种更高层次的抽象
D、数据往往依托于信息,是对信息的抽象和概括
正确答案：D

10 ，下列哪个不属于Hadoop的特性？（）
A、成本高
B、高可靠性
C、高容错性
D、运行在Linux平台上
正确答案：A

11 ，在Hadoop中每个应用程序被表示成一个作业，将作业的名称设置为zhangyu，用JAVA代码编写，以下正确的是：（）
A、Job.SetJarName(‘zhangyu’);
B、Job.SetMapName(‘zhangyu’);
C、Job.SetJobName(‘zhangyu’);
D、Job.SetInputName(‘zhangyu’);
正确答案：C

12 ，在下列选项中，哪种方式产生的数据量最大：（）
A、网络
B、机构
C、个人
D、机器
正确答案：D

13 ，下列选项中，哪种温度传感器的体积最小：（）
A、热电偶
B、热敏电阻
C、温度传感芯片
正确答案：C

14 ，在思维方式方面，不是大数据显著特征的是（）
A、全样而非抽样
B、效率而非精确
C、存储而非计算
D、相关而非因果
正确答案：C

15 ，就数据的量级而言，1PB数据是（）TB？
A、1000
B、1024
C、512
D、2048
正确答案：B

16 ，每种大数据产品都有特定的应用场景，以下哪个产品是用于批处理的：（）
A、Dremel
B、Storm
C、Pregel
D、MapReduce
正确答案：D

17 ，MapReduce的体系结构在，JobTracker是主要任务是什么：（）
A、负责资源监控和作业调度，监控所有TaskTracker与Job的健康状况
B、使用“slot”等量划分本节点上的资源量（CPU、内存等）
C、会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给TaskTracker
D、会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务（Task）
正确答案：A

18 ，下列哪一项是温度传感芯片的工作原理的最准确表达：（）
A、电阻阻值随温度变化
B、硅器件的特征量随温度变化
C、电容容值随温度变化
D、三极管结电压随温度变化
正确答案：B

19 ，以下哪项不是大数据时代的典型特征（）
A、数据的产生过程变得相对廉价
B、存储和分析海量数据的能力
C、在宏观上对目标群体进行分析
D、可以深入了解每一位客户的消费习惯
正确答案：C

20 ，对于文本行“hellohadoophelloworld”，经过WordCount程序的Map函数处理后直接输出的中间结果是：（）
A、<“hello”,1>、<“hello”,1>、<“hadoop”,1>和<“world”,1>
B、<“hello”,1,1>、<“hadoop”,1>和<“world”,1>
C、<“hello”,<1,1>>、<“hadoop”,1>和<“world”,1>
D、<“hello”,2>、<“hadoop”,1>和<“world”,1>
正确答案：A

21 ，查看HDFS系统运行状态的Shell命令，以下正确的是（）
A、hdfsdfsadmin-report
B、hadoop–report
C、dfsadmin-report
D、hdfs-report
正确答案：A

22 ，数据量大是大数据的一个重要的特点,以下哪个术语不是衡量数据量的单位?（）
A、KB
B、NB
C、TB
D、PB
正确答案：B

23 ，在一个基本的Hadoop集群中，SecondaryNameNode主要负责什么？（）
A、负责协调集群中的数据存储
B、负责执行由JobTracker指派的任务
C、协调数据计算任务
D、帮助NameNode收集文件系统运行的状态信息
正确答案：D

24 ，下列说法错误的是（）
A、Map函数将输入的元素转换成<key,value>形式的键值对
B、Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写
C、不同的Map任务之间不能互相通信
D、MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave
正确答案：B
25 ，下面关于分布式文件系统HDFS的描述正确的是（）
A、分布式文件系统HDFS是GoogleBigtable的一种开源实现
B、分布式文件系统HDFS比较适合存储大量零碎的小文件
C、分布式文件系统HDFS是一种关系型数据库
D、分布式文件系统HDFS是谷歌分布式文件系统GFS（GoogleFileSystem）的一种开源实现
正确答案：D

26 ，云计算平台层（PaaS）指的是什么？（）
A、操作系统和围绕特定应用的必需的服务
B、将基础设施(计算资源和存储)作为服务出租
C、从一个集中的系统部署软件，使之在一台本地计算机上(或从云中远程地)运行的一个模型
D、提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务
正确答案：A

27 ，对HDFS通信协议的理解错误的是（）
A、名称节点和数据节点之间则使用数据节点协议进行交互
B、客户端通过一个可配置的端口向名称节点主动发起TCP连接，并使用客户端协议与名称节点进行交互
C、HDFS通信协议都是构建在IoT协议基础之上的
D、客户端与数据节点的交互是通过RPC（RemoteProcedureCall）来实现的
正确答案：C

28 ，查看HDFS系统版本的Shell命令，以下正确的是（）
A、hadoop-ver
B、hdfsversion
C、dfsadminversion
D、hdfs-ver
正确答案：B

29 ，Hadoop项目结构中，（）负责资源管理和调度。
A、YARN
B、HA
C、Hive
D、Storm
正确答案：A

30 ，以下哪家公司在日常运作过程中会产生大量的数据?（）
A、顺丰快递
B、嘀嘀打车
C、摩拜单车
D、以上都是
正确答案：D

31 ，以下哪个选项与分类技术相关（）
A、物以类聚,人以群分
B、判决平面
C、购物篮分析
D、协同过滤
正确答案：B

32 ，以下对Hadoop的说法错误的是（）
A、HadoopMapReduce是针对谷歌MapReduce的开源实现，通常用于大规模数据集的并行计算
B、Hadoop2.0增加了NameNodeHA和Wire-compatibility两个重大特性
C、Hadoop是基于Java语言开发的，只支持Java语言编程
D、Hadoop的核心是HDFS和MapReduce
正确答案：C

33 ，下列选项中哪一门技术属于大数据平台________。（0.6分）
A、Tomcat
B、Hadoop
C、ASP.NET
D、Apache
正确答案：B

34 ，下列关于MapReduce模型的描述，错误的是哪一项？（0.6分）
A、MapReduce采用“分而治之”策略
B、MapReduce设计的一个理念就是“计算向数据靠拢”
C、MapReduce框架采用了Master/Slave架构
D、MapReduce应用程序只用Java来写
正确答案：D

35 ，在词频统计中，对于文本行"hellohadoophelloworld"，经过WordCount的Reduce函数处理后的结果是________。（0.6分）
A、<“hello”,<1,1>><“hadoop”,1><“world”,1>
B、<“hello”,2><“hadoop”,1><“world”,1>
C、<“hello”,1,1><“hadoop”,1><“world”,1>
D、<“hello”,1><“hello”,1><“hadoop”,1><“world”,1>
正确答案：B

36 ，启动hadoop所有进程的命令是________。（0.6分）
A、start-all.sh
B、start-hdfs.sh
C、start-hadoop.sh
D、start-dfs.sh
正确答案：A

37 ，Hadoop是________公司旗下的分布式计算平台。（0.6分）
A、Oracle
B、Google
C、Apache
D、Amazon
正确答案：C

38 ，下列关于Map和Reduce函数的描述，哪个是错误的：（0.6分）
A、Map将小数据集进一步解析成一批<key,value>对，输入Map函数中进行处理
B、Map每一个输入的<k1,v1>会输出一批<k2,v2>。<k2,v2>是计算的中间结果
C、Reduce输入的中间结果<k2,List(v2)>中的List(v2)表示是一批属于不同一个k2的value
D、Reduce输入的中间结果<k2,List(v2)>中的List(v2)表示是一批属于同一个k2的value
正确答案：C

39 ，以下哪个现象不属于大数据的典型特征（0.6分）
A、数据包含噪声及缺失值
B、数据量大
C、数据类型多
D、产生速率高
正确答案：A

40 ，以下哪项不属于大数据思维的涵盖内容（0.6分）
A、从模型驱动到数据驱动
B、通过采样的手段获取目标群体的统计特性
C、数据就是生产资料
D、全样本分析
正确答案：B

41 ，以下名词解释不正确的是________。（0.6分）
A、HDFS：分布式文件系统，是Hadoop项目的两大核心之一，是谷歌GFS的开源实现
B、Hive：一个基于Hadoop的数据仓库工具，用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
C、HBase：提供高可靠性、高性能、分布式的行式数据库，是谷歌BigTable的开源实现
D、Zookeeper：针对谷歌Chubby的一个开源实现，是高效可靠的协同工作系统
正确答案：C

42 ，Hadoop运行在________操作系统之上。（0.6分）
A、Windows
B、Linux
C、Unix
D、IOS
正确答案：B

43 ，下面哪一项不属于计算机集群中的节点？（0.6分）
A、主节点(MasterNode)
B、源节点（SourceNode）
C、名称结点(NameNode)
D、从节点（SlaveNode）
正确答案：B

44 ，云计算平台层IaaS指的是什么？（0.6分）
A、操作系统和围绕特定应用的必需的服务
B、将基础设施(计算资源和存储)作为服务出租
C、从一个集中的系统部署软件，使之在一台本地计算机上(或从云中远程地)运行的一个模型
D、提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务
正确答案：B

45 ，HDFS的节点分为两类，存储具体数据和存储元数据的节点分别是：（0.6分）
A、名称节点，数据节点
B、从节点，主节点
C、数据节点，名称节点
D、名称节点，主节点
正确答案：C

46 ，下列哪项说法是准确的：（0.6分）
A、ASIC通过编程来实现需要的功能
B、FPGA一旦设计好，其功能就无法修改
C、设计一颗ASIC芯片的费用通常很高
D、几千万门的FPGA单价只需要几美金
正确答案：C

47 ，下面对FsImage的描述，哪个是错误的？（0.6分）
A、FsImage文件没有记录文件包含哪些块以及每个块存储在哪个数据节点
B、FsImage文件包含文件系统中所有目录和文件inode的序列化形式
C、FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据
D、FsImage文件记录了所有针对文件的创建、删除、重命名等操作
正确答案：D

48 ，分布式文件系统HDFS采用了主从结构模型，由计算机集群中的多个节点构成的，这些节点分为两类，一类存储元数据叫________,另一类存储具体数据叫________。（0.6分）
A、名称节点，数据节点
B、从节点，主节点
C、数据节点，名称节点
D、名称节点，主节点
正确答案：A

49 ，下列哪项说法是准确的（0.6分）
A、NFC网络可包含七个活动设备
B、LoRa采用授权频谱
C、NB-IoT采用非授权频谱
D、SigFox采用非授权频谱
正确答案：D

50 ，下列关于MapReduce模型的描述，错误的是哪一项？（0.6分）
A、MapReduce采用“分而治之”策略
B、MapReduce设计的一个理念就是“计算向数据靠拢”
C、MapReduce框架采用了Master/Slave架构
D、不同Map任务之间可以互相通信
正确答案：D

51 ，下列哪个不属于YARN体系结构中ResourceManager的功能：（）
A、处理客户端请求
B、监控NodeManager
C、资源分配与调度
D、处理来自ApplicationMaster的命令
正确答案：D

52
下列属于批处理计算的是（）
A Storm
B Hive
C Spark
D Sqoop
正确答案：C

53
关于Hadoop MapReduce的叙述错误的是（）
A MapReduce的设计理念是“数据向计算靠拢”
B MapReduce将计算过程划分为Map任务和Reduce任务
C MapReduce的输入和输出都是键值对的形式
D MapReduce采用“分而治之”的思想
正确答案：A

54
编写MapReduce程序时，下列叙述错误的是（）
A Reduce函数的输出默认是有序的
B 在main函数中，启动MapReduce的方法是start（）
C Map函数的输出就是Reduce函数的输入。
D Map函数所在的类必须继承Mapper类
正确答案 D

55
采用HDFS Java API进行程序设计时，创建FileSystem对象的语句是________。
（0.5分）
A、 FileSystem fs = new FileSystem( );
B、 FileSystem fs = FileSystem.Create( );
C、 FileSystem fs = FileSystem.getInstance();
D、 FileSystem fs = FileSystem.get(uri, conf);
正确答案： D

56
人类社会的数据产生方式大致经历了三个阶段，不包括________。
A、运营式系统阶段
B、用户原创内容阶段
C、互联网应用阶段
D、感知式系统阶段
正确答案： C

57
HDFS中使用Shell命令对Hadoop进行操作时，（）实现了创建目录的功能。
A、 hadoop fs -mkdir /dir1
B、 hadoop fs -ls /usr
C、 hadoop fs -touchz /dir
D、 hadoop fs -cat /usr
正确答案： A

58
Hadoop MapReduce计算的流程是________。
A、 Map任务—Shuffle—Reduce任务
B、 Map任务—Reduce任务—Shuffle
C、 Reduce任务—Map任务—Shuffle
D、 Shuffle—Map任务—Reduce任务
正确答案： A

59
下列不属于Hadoop生态的技术是________。
A、 Hive
B、 HDFS
C、 HBase
D、 SQL Server
正确答案： D

判断

1 数据主要是其它生产活动的一种副产品,自身难以直接产生商业效益。
正确答案： ×
难以产生经济效益那为什么还要用呢？

2 MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为，移动数据需要大量的网络传输开销。
正确答案： √

3 物联网与云计算、大数据是相辅相成的关系，物联网就是指无线传感器。
正确答案： ×
物联网是一种概念，无线传感器是一种东西

4 HDFS系统采用NameNode定期向DataNode发送心跳消息，用于检测系统是否正常运行。
正确答案： ×
心跳信息由DataNode发起

5 利用大数据分析技术可以为客户定制个性化的消费体验。
正确答案： √

6 在硅片上整合前置放大器、模拟数字转换器等相关电路，这是微机电麦克风的核心技术。
正确答案： ×
不知道

7 Hadoop存储系统HDFS的文件是分块存储，每个文件块默认大小为32MB。
正确答案： ×
文件块默认大小为32MB

8 Hadoop是一个能够对大量数据进行分布式处理的软件框架，能够处理 PB 级数据。
正确答案： √

9 在Hadoop中每个应用程序被表示成一个作业，每个作业又被分成多个任务，JobTracker的负责作业的分解、状态监控以及资源管理。
正确答案： √

10 用户可以通过”hadoop fs –put ”命令获取远端文件数据。
正确答案： ×
都说了是put，肯定是本机，跟远端没有关系

11 两个键值对<“a”,1>和<“a”,1>，如果对其进行归并(merge)，会得到<“a”,2>，如果对其进行合并(combine)，会得到<“a”,<1,1>>。
正确答案： ×
归并得到<“a”,<1,1>>，合并得到<“a”,2>

12 大数据分析与传统数据分析相比,主要优势在于能够从更多的维度对事物进行描述和将不同领域的数据进行关联分析。（1.0分）
正确答案： √

13 MapReduce的Shuffle操作仅在Map任务中执行。
正确答案： ×
Shuffle是Map和Reduce之间的桥梁

14 HDFS系统为了容错保证数据块完整性，每一块数据都采用两份副本。
正确答案： ×
多份，可以是一份，也可以是100份，主要视情况而定

15 MapReduce适合于实时处理。
正确答案： ×
MapReduce是批处理

16 Map的主要工作是将多个任务的计算结果进行汇总。
正确答案： ×
Map主要负责映射，汇总是Reduce的工作

17 Hadoop是IBM公司开发的一款商用大数据软件。
正确答案： ×
Hadoop是Apache基金会开发

18 MapReduce是分布式并行计算框架，其计算模式属于流计算，实时性好。
正确答案： ×
批处理计算，和实时性没什么关系

19 Hadoop是跨平台的，安装Hadoop时没必要安装JDK。
正确答案： ×
安装hadoop必须安装JDK

20 Hadoop是基于Java语言开发的，具有很好的跨平台特性。
正确答案： √

填空

1 HDFS的命名空间包括目录、文件和___块___。

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

华为云：做厚算力“黑土地”，成就行业AI先锋

华为开发者空间

通知语音播报功能，解锁全新体验

若应用进程不在前台，Push Kit会将消息内容传递给通知扩展进程，开发者可以在该进程中自行完成语音播报业务处理后，返回自定义消息内容，Push Kit将弹出通知提醒。（Push Kit）提供了推送通知扩展消息功能，该功能支持通过语音播报的方式，让用户能够迅速感知到重要消息，解锁全新的通知体验。在发送通知扩展消息的过程中，存在应用进程在前台和不在前台两种情况。若应用进程在前台，则不弹出通知提醒，开