大数据分析师题库整理（Part Four）

Day16691 Rowkey设计的原则，下列哪些选项的描述是正确的?尽量保证越短越好可以使用汉字可以使用字符串692 HBase构建二级索引的实现方式有哪些?MapReduceCoprocessor693关于HBase二级索引的描述，哪些是正确的?核心是倒排表二级索引概念是对应Rowkey这个“―级”索引694下列关于BloomFilter的描述正确的是?是一个很长的二进制向量和一系列随机映射函

Dylan~

2486人浏览 · 2021-10-15 18:25:51

Dylan~ · 2021-10-15 18:25:51 发布

Day16

691 Rowkey设计的原则，下列哪些选项的描述是正确的?

尽量保证越短越好

可以使用汉字

可以使用字符串

692 HBase构建二级索引的实现方式有哪些?

MapReduce

Coprocessor

693关于HBase二级索引的描述，哪些是正确的?

核心是倒排表

二级索引概念是对应Rowkey这个“―级”索引

694下列关于BloomFilter的描述正确的是?

是一个很长的二进制向量和一系列随机映射函数

有一定的误算率

695 HBase官方版本可以安装在什么操作系统上?

Centos

ubuntu

RedHat

696下列哪项可以作为集群的管理?（单选！）

ClouderaManager

697配置机架感知的下面哪项正确

如果一个机架出问题，不会影响数据读写

写入数据的时候会写到不同机架的DataNode中

MapReduce会根据机架获取离自己比较近的网络数据

698 Cloudera提供哪几种安装CDH的方法?

Clouderamanager

Tarball

Yum

Rpm

699 Hadoop作为分布式计算技术的杰出代表，其主要特征包括() 。

可靠性

健壮性

高效性

700 Hadoop是当前大数据平台的事实标准，下列对Hadoop的描述中正确的是()。

Hadoop是一个由Apache基金会开发的分布式系统开源架构

Hadoop的初始设计思路来源于Google发布的学术论文

Hadoop在当前衍生出一系列优秀的开源项,包括Hbase、Hive、Pig等

Hadoop的两个核心部分是HDFS(HbaseDistributedFileSystem)和MapReduce计算框架

701 Hadoop分布式文件系统（HDFS)具有()的特性。

适合数据批量处理

最大化吞吐率

允许计算向数据迁移

702 Hadoop及其生态系统，可以部署在

Linux

UNIX

703关于大数据的内涵,以下理解正确的是

大数据就是很大的数据

大数据在不同领域，又有不同的状况

大数据里面蕴藏着大知识、大智慧、大价值和大发展

大数据还是一种思维方式和新的管理、治理路径

704大数据的价值体现在

大数据给思维方式带来了冲击

天数据为政策制定提供科学依据

天数据助力智慧城市提升公共服务水平

天数据实现了精准营销

705对大数据的管理和使用包括哪些方面

大数据的运营

大数据的应用

大数据的存储

Day17

736在数据缺失严重时，会对分析结果造成较大影响，因此对剔除的异常值以及缺失值，要采用合理的方法进行填补，常见的方法有平均值填充、K最近距离法、回归法

对

737 FusionInsight Manage 支持大规模集群的安装部署、监控、告警、用户管理、权限、极大似线估计法等。管理、审计、服务管理、健康检查、问题定位、升级和补丁。( )

对

738由于高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤。

对

739数据异常值检验方法以正态分布为前提，若数据偏离正态分布或样本较小时，则检验结果未必可靠，校验是否正态分布可借助W检验、D检验。

对

740随着数据量的增大，异常值和缺失值对整体分析结果的影响会逐渐变小，因此在“大数据”模式下，数据清洗可忽略异常值和缺失值的影响，而侧重对数据结构合理性的分析。

错

741 聚类问题是一种无监督的学习任务，即训练样本的标记信息是未知的，通过对无标记训练样本的学习来揭示数据的内在性质，就可以为进一步数据分析提供基础。

对

742自然界中某种事物发生时其他事物也会发生，则这种联系称之为关联。

对

743 FP-Growth算法不产生候选集而直接生成频繁集的频繁模式增长算法，该算法采用分而治之的策略。

错

744关联分析的目的是找出数据集合中隐藏的关联网，是离散变量因果分析的基础。

对

745折线图可以显示随时间（根据常用比例设置）而变化的连续数据，因此非常适用于显示在相等时间间隔下数据的趋势。

对

746折线图主要用于显示在相等时间间隔下数据的趋势。

对

747饼图一般将最大部分设置在12点指针的左边以强调其重要性，将第二大部分设置在12点的右边，其余的逆时针方向跟进，最小的切片就会落在靠近图表底部——最不重要的位置。

对

748在折线图中，类别数据沿水平轴均匀分布，所有值数据沿垂直轴均匀分布

对

749 “词云”就是对网络文本中出现频率较高的“关键词”给予视觉上的突出，形成“关键词云层”或“关键词渲染”，从而过滤掉大量的文本信息，使访问者只要一眼扫过文本就可以领略文本的主旨。

对

750算术平均数公式是算数平均数=总体标志值（数据）总和/总体单位总和。

对

Day18

781在数据分析中，我们发现通常重要的结果只占其中一小部分，约20%，其余80%尽管是多数，却是次要的。这个法则叫帕累托法则。

错

782在保证数据准确的前提下，数据是绝对正确的，因此可以完全依赖数据直接得出分析的结论。

错

783随机二次抽样法是通过多次重复的使用交叉检验法，来得到一组准确率等效果的指标

对

784时间序列的主要目的是用来预测，根据已有的时间序列数据来预测未来的变化。

对

785如果需要完成的任务是预测一个连续值，则这个任务是回归，如果是离散值，则是分类。

对

786动态定价是指电子商务企业通过数据构建客户资料，来实现灵活的定价和折扣策略

对

787数据分析报告的重点是传递分析的结论以及其中有价值的信息给决策者，因此报告的结论与建议是需要重点表述的。

错

788数据分析报告的目录要尽可能的详细，这样才能完全体现报告的内容。

错

789 MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为，移动数据需要大量的网络传输开销。

对

790 Flume的数据流可以根据 headers的信息发送到不同的channel中。( )

对

791 HDFS集群中的数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端的读/写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。

对

792 HDFS是一个部署在集群上的分布式文件系统，因此，很多数据需要通过网络进行传输。

对

793 HDFS名称节点会定期做检查数据块的副本数量，一旦发现某个数据块的副本数量小于冗余因子，就会启动数据冗余复制，生成新的副本。

对

794在HDFS NameNode中 Fslmage中并没有记录具体的记录块在哪些数据节点上存储的，是通过数据节点和名称节点在运行时不断通过沟通而实时维护这些信息的, 而这些信息都是存储到内存单中去了。

错

795 HDFS的命名空间包含目录、文件和块。

对

Day19

826神经网络对未经过训练的数据具有分类功能，但其需要很长时间进行训练。

对

827函数imread[ ]是用于读取图片文件中的数据。

对

828相异度矩阵存储n个对象两两之间的相似性，表现形式是一个n×n维的矩阵。

对

829 Ganglia不仅可以进行监控，也可以进行告警。

对

830神经网络算法可以使权值收敛到某个值，但并不保证其为误差平面的全局最小值。（bp神经网络）

错

831大数据时代是先有数据后有模式~

错

832 MapReduce的核心理念是将一个大的运算任务分解到集群每个节点上，充分运用集群资源，缩短运行时间

对

833 HBase中Compaction的目的是减少同一个Region，同一个ColumnFamily下的文件数目〔) 。

对

834 barrier是一个特殊的元组，这些元组被周期性注入到流图中并随数据流在流图中流动，每个barrier是当前快照和下一个快照的分界线

对

835 Sink取走数据并写入目的地后，会将event从channel中删除

错

836 Flume中source必须确切的与一个channel关联

错

837 FusionInsight HD可以针对整个集群、某个服务、某个节点进行健康检查，以确定各项指标是否正常

对

838 Kafka日志的清理方式有两种: delete 和compact。默认值是delete。( )

对

839 fusioninsight HD产品中,一个典型的kafka 集群包含若干个producer若干个consummer和一个zookeeper集群?

错

840 Channel的作用类似队列,用于临时缓存进来的数据,当Sink成功地将数据发送到下—跳的Channel或最终目的,数据会从Channe1移除( )

对

Day20

871 Hive是一种数据仓库处理工具,使用类sql的HivesqlL语言实现数据查询功能,所有Hive的数据都存储在HDFS中。

对

872 Kafka Consumer 写数据总体流程是, rconsumer 连接指定Topicpartition所在的Leaderbroker.用主动获取方式从KafKa中获取消息。

错

873时系统管理员需要考虑扩容解决此问题。

Fusionis 界面上,当收到Kafka磁盘容量不足告警,且该告警的原因已经排除硬件故障

对

874掘美中的位置,不用全表扫描．二级索引为提供了按照某些列的值进行索引的能力,二级索引先查索引表再定位到数

对

875 colocation(同分布)文件级的同分布实现文件的快速访问,避免了因数据迁移带来的大量网络开销

错

876 Hadoop系统中,如果HDFS文件系统的备份因子是3,那么Mapreduce每次允许Task都是从3个有副本的机器上传输需要处理

错

877 Flume架构中,一个Source可以连接多个Channel。

对

878 Kafka中partition replication之间同步数据,从partition 的leader复制数据到fo11ower需要线程(replication FetcheThread) ,Follower(一个follower相当于consumer主动从eader批量拉取消息的,这极大提高了吞吐量.

对

879在Flink 中, checkpoint 机制能够保证应用在运行过程中出现失效时,从某一个检查点恢复,在此过程中,流快照是根据数据流入建立的()

对

880 Hive 中的“group by”指的是通过一定规则将一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理.

错

881 Hive 中UNION ALL操作符用于合并两个或多个select 语句的结果集,结果集中,不允许有重复的值。

错

882 Kafka是一个高吞吐,分布式,基于发布订阅的消息系统利用Kafka技术可在廉价PC Server上搭建起大规模消息系统。

对

883如果某些Containers 的物理内存利用率超过了配置的内存阈值,但所有Containers的总内存利用率并没有超过设置的Nodemanager内存值,那么内存使用过多的containers仍可以继续运行。

对

884 Fusioninsight HD系统中，Hbase支持动态扩展列。