【史上最全】Ambari 大数据集群运维与管理操作指南

作用Hadoop 是用在商业主机网络集群上的大规模、分布式的数据存储和处理基础架构。监控和管理如此复杂的分布式系统是不简单的。为了管理这种复杂性，Apache Ambari 从集群节点和服务收集了大量的信息，并把它们表现为容易使用的，集中化的接口：Ambari Web功能显示诸如服务特定的摘要、图表以及警报信息创建和管理 HDP 集群并执行基本的操作任务，例如启动和停止服务，向集群中添加主机，

大数据研习社

5456人浏览 · 2022-03-30 19:08:48

大数据研习社 · 2022-03-30 19:08:48 发布

作用

Hadoop 是用在商业主机网络集群上的大规模、分布式的数据存储和处理基础架构。监控和管理如此复杂的分布式系统是不简单的。为了管理这种复杂性，

Apache Ambari 从集群节点和服务收集了大量的信息，并把它们表现为容易使用的，集中化的接口：Ambari Web

功能

显示诸如服务特定的摘要、图表以及警报信息

创建和管理 HDP 集群并执行基本的操作任务，例如启动和停止服务，向集群

中添加主机，以及更新服务配置

执行集群管理任务，例如启用 Kerberos 安全以及执行 Stack 升级

使用

一、Dashboard（仪表盘）

使用集群仪表盘来监控 Hadoop 集群。通过单机 Ambari Web UI 主窗口顶端的 Dashboard 访问集群仪表盘。Ambari Web UI 显示仪表盘页作为主页。使用仪表盘来查看集群的操作状态。Ambari Web 左侧显示集群当前运行的 Hadoop 服务列表。仪表盘包括 Metrics, Heatmaps, 以及Config History 选项卡；默认显示 Metrics 选项卡。

1.1 Metrics在Metrics 页面上，有多个小程序(widget), 表现 HDP 集群服务的操作状态信息。多数小程序显示一个度量值(metric), 例如，HDFS Disk Usage 表示为一个负载图表和一个百分数指示。

HDFS：

NameNode Heap ：NameNode Java Virtual Machine (JVM) 堆内存使用的百分数。

HDFS Disk Usage ：分布式文件系统(DFS) 已使用的百分比，包括 DFS 和 non-DFS

NameNode CPU WIO ：CPU wait I/O 百分比

Data Nodes Live ：运转中的 DataNodes 的数量，由 NameNode 报告

NameNode RPC ：潜在 RPC 队列平均水平 (The average RPC queue latency)

NameNode Uptime ：NameNode 正常运行时间计算值(uptime calculation)

YARN：

ResourceManager Heap : 以使用的 ResourceManager JVM 堆内存百分比

NodeManagers Live ：运转中的 DataNodes 数量，由 ResourceManager 报告

ResourceManager Uptime ：ResourceManager uptime

YARN Memory ：可用的 YARN 内存百分数(used versus total available)

HBase：

HBase Master Heap : 已使用的 NameNode JVM 对内存百分数

HBase Ave Load ：HBase server 上的平均负载

Region in Transition ：转换中的 HBase regions 数量

HBase Master Uptime ：HBase master uptime

Storm：

Supervisors Live ：运转中的 supervisor 的数量，由 Nimbus Server 报告

Cluster-Wide：

Memory usage : 集群范围的内存使用，包括缓存的(cached)，交换的(swapped), 使用的(used), 以及共享的(shared)

Network usage : 集群范围的网络利用，包括输入和输出(including in-and-out)

CPU Usage : 集群范围的 CPU 信息，包括系统的，用户的及 wait IO (including system, user and wait IO)

Cluster Load : 集群范围负载信息，包括节点总数， CPU 总数，运行的进程数量，以及 1-min Load

1.2 Heatmaps：评价指标可视化

如前所述，Ambari web 主页左侧被切分出一个状态摘要面板，并在顶部有 Metrics, Heatmaps, 和 Config History 选项卡，默认显示 Metrics 选项卡。

当要查看整个集群利用情况的图形表示时，单击 Heatmaps 选项卡，使用简单的颜色代码，称为 heatmap, 提供这类信息。

集群中每个主机表示为一个带颜色的块。将鼠标悬停在主机的颜色块上可以看到该主机更多的信息，在另一窗口上显示有关主机上安装的 HDP 组件的度量值。

在块中显示的颜色表示在一组选定的 metric 单元中的使用率。如果任何确定使用率的必要的数据不可用，这个块显示为 Invalid data. 通过修改 heatmap

默认的最大值解决这个问题，使用 Select Metric 菜单

1.3 Config History：配置历史

二、Service

2.1 操作状态

Ambari Web 左侧的服务摘要列表列出了当前监控的所有 Apache 组件服务。图标的形状，颜色，以及每个条目左侧的动作指明了每个条目的操作状态：

实心绿 (solid green) | All masters are running

闪烁绿(blinking green) | Starting up

实心红 (solid red) | At least one master is down

闪烁红 (blinking red) | Stopping

2.2 链接到服务 UI (Linking to Service UIs)

HDFS Links 和 HBase Links widgets 列出 HDP 组件用于链接到更多的 metric 信息，可用的线程栈，日志，以及纯组件 UI. 例如，可以为 HDFS 链接到

NameNode, Secondary NameNode, 和 DataNode 。

单击 More 下拉列表从每个服务可用的链接列表中选择。Ambari Dashboard 包括如下服务的度量的附加链接：

HDFS：

NameNode UI ：Links to the NameNode UI

NameNode Logs ：Links to the NameNode logs

NameNode JMX ：Links to the NameNode JMX servlet

Thread Stacks ：Links to the NameNode thread stack traces

HBase：

HBase Master UI ：Links to the HBase Master UI

HBase Logs ：Links to the HBase logs

ZooKeeper Info ：Links to ZooKeeper information

HBase Master JMX ：Links to the HBase Master JMX servlet

Debug Dump ：Links to debug information

Thread Stacks ：Links to the HBase Master thread stack traces

三、Hosts

作为集群系统管理员或集群操作员，需要知道每部主机的操作状态。也需要知道哪部主机有问题需要处理。可以使用 Ambari Web Hosts 页面来管理多个Hortonworks Data Platform (HDP) 组件，例如运行在整个集群上 DataNodes, NameNodes, NodeManagers, 和 RegionServers. 举例来说，可以重启所有的DataNode 组件，可选地控制滚动重启任务。Ambari Hosts 可以过滤进行管理的主机组件选取，基于操作状态，主机健康状况，以及定义的主机分组。

3.1 理解主机状态 (Understanding Host Status)

可以在 Ambari Web Hosts 页面查看集群上单个主机的状态。主机以 fully qualified domain name (FDQN)的形式列出，并附有一个带有颜色的图标指示出

主机的操作状态。

● 红色三角形：该主机上至少有一个 master 组件挂掉了，鼠标悬停图标上查看一个工具提示列出受影响的组件。

● 橘色：该主机上至少有一个 slave 组件挂掉了，鼠标悬停图标上查看一个工具提示列出受影响的组件。

● 黄色 : Ambari Server 没有从该主机上收到心跳包超过 3 分钟。

● 绿色：正常运行状态。

● Maintenace Mode ：黑色 "医药箱" 图标指出一部主机处于维护模式。

● Alert ：红色方框带有一个数字指明该主机上的警报数量。

红色图标覆盖橘色图标，橘色图标覆盖黄色图标。换句话说，一部主机有 master component 宕机附有一个红色图标，即便它可能也有 slave component 和连接问题。主机处于维护模式或遇到警报，图标出现在主机名右侧。

3.2 查找主机页面 (Searching the Hosts Page)

可以查找完全主机列表，通过主机名，组件属性，以及组件操作状态过滤查找。也可以通过关键字查找，简单地在搜索框内输入一个单词。

主机搜索工具在主机列表上方

① 单击搜索框

出现可用的搜索类型，包括：

通过主机属性搜索：通过 host name, IP, host status 以及其他属性

Search by Service ：通过给定一个服务，查找运行此服务组件主机

Search by Component ：查找运行某组件处于给定状态的主机，例如 started, stopped, maintenance mode, 等等。

Search by keyword ：在搜索框输入任何单词描述要查找的内容，这成为一个文本过滤器。

② 单击搜索类型

出现一个可用选项的列表，取决于在第一步中的选择

例如，如果选择单击了 Service, 当前服务出现

③ 单击一个选项

匹配当前搜索条件的列表显示到 Hosts 页面

④ 单击下一选项再次调整搜索

3.3 执行主机级别的动作 (Performing Host-Level Actions)

利用 Actions UI 控件对集群主机执行动作。可以执行的动作(Actions)由一个一上的操作(operation)组成，可能在多个主机上，也称为批量操作(bulkoperations).

Actions 控件由三个顺序的菜单精确定义(to refine your search) 的工作流组成：一个主机菜单，一个基于主机选择的对象菜单，基于对象选择的动作菜单。

例如，如果要重启集群中任何存在 RegionServers 主机的 RegionServers 服务组件：

① 在 Hosts 页面，选择或查找运行 RegionServer 到主机：

② 利用 Actions 控件，单击 Fitered Hosts > RegionServers > Restart

③ 单击 OK 来启动选定的操作

④ 可选地，监控后台操作，诊断或处理重启操作故障

3.4 管理主机上的组件 (Managing Components on a Host)

管理特定主机上运行的组件，在 Hosts 页面列出的 FDQN 中单击一个，那个主机的页面出现，单击 Summary 选项卡显示组件面板列出该主机安装的所有组件

要管理一部主机上所有的组件，可以利用显示窗口右上角的 Host Actions 控件来对所选主机上安装的所有组件 start, stop, restart, delete, 或turn on maintenance mode

另一方面，可以管理单个组件，利用在组件面板内显示在每个单独组件旁边的下拉菜单。每个组件的菜单标示了组件当前的操作状态。打开菜单，显示可用的管理选项，基于标示的状态。例如，可以 HDFS 的 DataNode 组件执行 decommission, restart, or stop 动作

3.5 退役一个 Master 或 Slave (Decommissioning a Master or Slave)

退役是支持从集群中移除组件和它们的主机的过程。在移除主机或从服务上移除主机之前，必须退役运行在该主机上的 master 或 slave 服务。退役有助于保护数据丢失或服务损坏。退役对于下列组件类型可用：DataNodes、 NodeManagers、RegionServers

退役执行下列任务：

对于 DataNodes ：安全地复制 HDFS 数据到集群中其他的 DataNodes

对于 NodeManagers ：停止接受新作业的请求并停止组件

对于 RegionServers ：打开 drain mode 并停止组件

3.6 退役和删除组件

3.6.1 退役一个组件 (Decommission a Component)

① 利用 Ambari Web，浏览到 Hosts 页面

② 找到并单击组件驻留的主机 FQDN

③ 使用 Actions 控件，单击 Selected Hosts > DataNodes > Decommission

过程中 UI 显示退役中(Decommissioning)状态

退役过程完成时，退役状态变为已退役 (Decommissioned)

3.6.2 删除一个组件 (Delete a Component)

① 利用 Ambari Web，浏览到 Hosts 页面

② 找到并单击组件驻留的主机 FQDN

③ 在 Components 中, 找到一个要退役的组件

④ 如果该组件的状态是 Started, 停止它

一个退役的 slave 组件可以在已退役状态重启

⑤ 从组件下拉菜单中单击 Delete

删除一个 slave 组件，如一个 DataNode 不会自动通知 master 组件，如 NameNode 从它的排除列表中移除那个 slave 组件。添加一个已删除的组件回到集群表现出如下问题，从 master 的视角观察，添加进来的 slave 保持在退役状态。重启 master 组件可排除故障

⑥ 让 Ambari 识别并监控余下的组件，重启服务。

3.7 从集群删除一个主机 (Deleting a Host from a Cluster)

删除一个主机从集群中移除该主机

先决条件：在删除一部主机之前，必须完成如下前提：

● 停止该主机上运行的所有组件

● 退役运行在该主机上的所有 DataNode

● 迁移该主机上所有的 master 组件，例如 NameNode 或 ResourceManager

● 关闭主机的维护模式(Maintenance Mode)

步骤：

① 利用 Ambari Web，浏览到 Hosts 页面, 找到并单击要删除的主机 FQDN

② 在 Host-Details 页面，单击 Host Actions

③ 单击 Delete

3.8 设置维护模式 (Setting Maintenance Mode)

在一个 Ambari-managed 集群上，当要专注于执行硬件或软件维护，修改配置设置，处理故障，退役，或移除集群节点时，设置维护模式可以阻止警报，并

去掉在特定服务，组件，以及主机上的批操作(omit bulk operations)。

显示设置一个服务的维护模式，隐含地设置了运行此服务的组件和主机的维护模式。如果维护模式阻止了要执行在服务，组件，或主机上的批操作，可以在

维护模式中显式地启动和停止服务、组件、或主机。

下面几节提供了一个案例，如何在有三个节点，Ambari 管理集群上使用维护模式。描述如何显式地打开(turn on) HDFS 服务的维护模式，主机，以及隐式地

打开服务、组件，以及主机的维护模式。

3.8.1 设置服务维护模式 (Set Maintenance Mode for a Servicee)

① 在 Services 页面，选择 HDFS

② 选择 Service Actions, 然后选择 Turn On Maintenance Mode

③ OK 确认

注意，在 Services Summary, NameNode 和 SNameNode 组件的 Maintenance Mode 打开

3.8.2 设置主机维护模式 (Set Maintenance Mode for a Host)

使用 Host Actions 控件设置主机维护模式

步骤：

① Hosts 页，选择主机 FDQN

② 选择 Host Actions, 然后选择 Turn On Maintenance Mode.

③ OK 确认

注意，主机上所有的组件打开维护模式

使用 Actions 控件设置主机维护模式

步骤：

① Hosts 页，选择主机 FDQN

② 在 Actions > Selected Hosts > Hosts, 选择 Turn On Maintenance Mode.

③ OK 确认

3.8.3 何时设置维护模式 (When to Set Maintenance Mode)

设置维护模式的四个一般场景为：执行维护，测试配置修改，测底删除一个服务，处理警报。

■ 要在一部主机上执行硬件或操作系统维护

执行维护时，要能够做如下操作：

● 阻止这部主机上所有组件生产警报

● 能够停止、启动、以及重启主机上的每一个组件

● 阻止该主机 host-level 或 service-level 的 starting, stopping, 或 restarting 组件批操作为了达成这些目标，显示设置主机的维护模式，将这部主机上所有的组件隐式地设置为维护模式。

■ 要测试一个服务配置的修改。应该停止、启动、以及重启服务来测试重启是否激活了配置的变化

要测试配置信息的变化，要确保如下条件：

● 这个服务上没有任何组件生成警报

● 这个服务上没有 host-level 货 service-level 的批操作启动、停止、或重启组件

为了达成这些目标，显示设置服务维护模式。将一个服务设置为维护模式隐式地为该服务的所有组件打开维护模式

■ 要停止一个服务

要完全停止一个服务，需要确保如下条件：

● 这个服务没有生成 warnings

● 没有由 host-level 的动作或批操作导致的组件启动，停止，或重启

为了达成这些目标，显示为服务设置维护模式。将一个服务设置为维护模式隐式地为该服务的所有组件打开维护模式

■ 要停止一个主机组件生成警报

要停止一个主机组件生成警报，必须能够做到如下内容：

● 检查组件

● 访问该组件生成的 warnings 和 alerts

为了达成这些目标，为主机组件显示设置维护模式。将主机组件设置为维护模式，阻止 prevents host-level 和 service-level 批操作 starting 或restarting 该组件。可以在维护模式开启状态系显示重启该组件。

3.9 向集群添加主机 (Add Hosts to a Cluster)

① 浏览到 Hosts 页面然后选择 Actions > +Add New Hosts

Add Host 向导提供一系列提示类似于 Ambari 集群安装向导(Ambari Cluster Install wizard.)

② 跟随提示，提供相关信息，继续完成向导

3.10 建立机架感知 (Establishing Rack Awareness)

有两种方法建立机架感知。要么使用 Ambari 设置 rack ID, 或者利用自定义拓扑脚本(topology script) 设置 rack ID.

3.10.1 利用 Ambari 设置机架 ID (Set the Rack ID Using Ambari)

通过设置 Rack ID, 使 Ambari 为主机管理机架信息，包括在 heatmaps 中通过 Rack ID 显式主机，使用户能过滤并在 Hosts 页面通过 Rack ID 查找主机

如果集群中安装了 HDFS, Ambari 通过使用拓扑脚本将 Rack ID 信息传递给 HDFS. Ambari 生成的拓扑脚本在 /etc/hadoop/conf/topology.py 位置，并自动设置 core-site 中的 net.topology.script.file.name 属性。这个脚本读取一个 Ambari 自动生成的 /etc/hadoop/conf/topology_mappings.data 映射文件。当你在 Ambari 中修改 Rack ID 分配时，这个映射文件会在推进(push out) HDFS 配置信息时更新。HDFS 利用这个拓扑脚本获得 DataNode 主机的机架信息。有两种方法利用 Ambari Web 设置 Rack ID: 对于多主机，使用 Actions, 或者对于单个的主机，使用 Host Actions

■ 为多个主机设置 Rack ID

步骤：

① 使用 Actions, 单击 selected, filtered, 或 all hosts

② 单击 Hosts.

③ 单击 Set Rack

■ 在单个主机上设置 Rack ID

步骤：

① 浏览到 Host 页面

② 单击 Host Actions

③ 单击 Set Rack

3.10.2 利用自定义拓扑脚本设置机架 ID (Set the Rack ID Using a Custom Topology Script)

如果不想 Ambari 管理主机到机架信息，可以使用自定义到拓扑脚本。要做到这一点，必须创建自己的拓扑脚本管理分布脚本到所有主机。注意，也因为Ambari 不能访问到主机机架信息，Ambari Web 中的 heatmaps 不能显示机架。

使用自定义脚本设置 Rack ID:

步骤：

① 浏览到 Services > HDFS > Configs

② 修改 net.topology.script.file.name 为自己的自定义拓扑脚本

如，/etc/hadoop/conf/topology.sh

③ 分布拓扑脚本到所有主机上

现在，可以为 Ambari 之外的脚本管理机架映射信息了。

四、管理服务 (Managing Services)

利用 Ambari Web UI 主页的 Services 选项卡监控和管理运行于集群上选定的服务。

集群上安装的所有服务列于左侧的面板上：

4.1 启动和管理所有服务 (Starting and Stopping All Services)

同时启动或停止列出的所有服务，单击 Actions 然后单击 Start All 或 Stop All:

4.2 显示服务操作摘要 (Displaying Service Operating Summary)

从服务列表上单击服务的名称，显示出 Summary 选项卡含有关于此服务操作状态的基本信息，包括警报。要刷新监控面板并显示另一个服务的信息，可以在服务列表上单击一个不同的服务名称。

注意服务名称后面带有颜色的图标，指出服务的操作状态和该服务生成的警报。可以单击一个 View Host 链接来查看组件和运行选定组件的主机。

4.2.1 警报和健康检查 (Alerts and Health Checks)

在 Summary tab, 可以单击 Alerts 来查看所有健康检查列表以及所选中服务的状态，重要警报首先显示。要查看警报定义，可以单击列表中每个警报消息的文本标题来查看警报定义。例如单击 HBase > Services > Alerts > HBase Master Process

4.2.2 修改服务表盘 (Modifying the Service Dashboard)

取决于所选择的服务，Summary tab 包含一个 Metrics 表盘，默认含有重要的服务度量的监控

如果安装了 Ambari Metrics 服务并使用 Apache HDFS, Apache Hive, Apache HBase, 或 Apache YARN, 可以自定义度量表盘。可以向 Metrics 表盘添加

或从表盘上移除 widget, 并可以创建新的 widget 或删除 widget。widget 可以是对你或你的表盘私有的(private), 或者可以共享到 Widget Browser 库。

必须已经安装 Ambari Metrics 服务才能查看，创建，以及自定义 Metrics 表盘。

4.2.2.1 添加或移除一个 Widget (Adding or Removing a Widget)

要在 HDFS, Hive, HBase, 或 YARN 服务的 Metrics 表盘中添加或移除一个 widget:

① 或者单击 + 号图标启动 Widget Browser, 或者从 Actions > Metrics 单击 Widget Browser

② Widget Browser 显示可以添加到服务表盘中的 widget, 包括已经包含在表盘中的，共享的 widget, 以及已创建的 widget.

③ 如果只要显示自己创建的 widget,选择 “Show only my widgets” 复选框

④ 如果要移除一个添加到表盘中的 widget, 单击它的移除图标

⑤ 如果要添加一个还没有添加进来的可用 widget, 单击 Add

4.2.2.2 创建一个 Widget (Creating a Widget)

① 单击 + 图标启动 Widget Browser

② 或者单击 Create Widget 按钮，或者在 Actions 菜单上单击 Create Widget

③ 选择创建的 widget 类型

④ 取决于服务和 widget 类型，可以选择度量和使用的操作符创建表达式来咋 widget 中显式在构建表达式时会显式 widget 的预览。

⑤ 输入 widget 的名称和描述

⑥ 可选地，选择共享此 widget

共享 widget 使这个 widget 对集群中所有用户可用。一个 widget 共享之后，其他 Ambari Admins 或 Cluster Operators 可以修改或删除这个widget, 这是不可恢复的。

4.2.2.3 删除一个 Widget (Deleting a Widget)

① 单击 + 图标启动 Widget Browser, 或者从 Actions > Metrics 单击 Widget Browser

② Widget Browser 显示可以添加到服务表盘中的 widget, 包括共享的和已创建的 widget

③ 如果一个 widget 已添加到表盘，它会显式为 Added, 单击它可以移除

④ 对于自己创建的 widget, 可以选择 More... 选项删除

⑤ 对于共享的 widget, 如果是 Ambari Admin 或 Cluster Operator, 也会有选项删除

删除一个共享的 widget 会从所有用户删除，此过程不可逆

4.2.2.4 导出 Widget 图形数据 (Export Widget Graph Data)

可以利用 Export 能力从 widget 图表中导出度量数据

① 将鼠标指针悬停在 widget 图表上面，单击图表放大显示，显示 Export 图标

② 单击图标并制定 CSV 或 JSON 格式

4.2.2.5 设置显示时区 (Setting Display Timezone)

可以设置时区用于显示 widget 图表中的度量数据

① Ambari Web 中，单击用户名病选择 Settings

② 在 Locale 节，选择 Timezone.

③ 单击 Save

Ambari Web UI 重新载入并使用新设置的时区显示图表。

4.3 添加服务 (Adding a Service)

Ambari 安装向导默认安装所有可用的 Hadoop 服务。可以在初始安装时仅选择部署一部分服务，然后在需要时安装其他服务。例如，有些有些用户在初始

安装时只选择安装核心 Hadoop 服务。 Actions 控件的 Add Service 选项可以在不中断 Hadoop 集群操作情况下部署其他服务。当部署了所有可用当服务后，

Add Service 控件显示为无效，表明它不可用。

添加服务，下面步骤展示了向 Hadoop 集群添加 Apache Falcon 服务的例子:

(1) 单击 Actions > Add Service

打开 Add Service wizard

(2) 单击 Choose Services

Choose Services 面板显示，已激活的服务显示为绿色背景并且其复选框被选中。

(3) 在 Choose Services 面板上，选择要添加服务前面的复选框，然后单击 Next

(4) 在 Assign Masters 页面，确认默认的主机分配。

Add Services Wizard 指示所选服务的 master 组件安装的主机。另一方面，利用下拉菜单选择不同的主机，让所选服务的 master 组件添加到该主机上。

(5) 如果要添加的服务要求 slaves 和 clients, 在 Assign Slaves and Clients 页，接受默认的 slave 和 client 组件分配的主机，单击 Next，另一方面，选择要安装 slave 和 client 组件的主机，然后单击 Next

(6) 在 Customize Services, 接受默认的配置属性

另一方面，如有必要，编辑默认的配置属性值。选择 Override 为此服务创建一个配置组，然后，选择 Next

(7) 在 Review 页，验证配置设置符合期望，然后单击 Deploy

(8) 监控安装，启动，以及测试服务的过程，当成功结束时，单击 Next

(9) 当看到安装结果的摘要显示时，单击 Complete

(10) 查看并确认建议的配置修改

(11) 重新启动其他组件，因新增加了服务，其配置已过时。

4.4 执行服务动作 (Performing Service Actions)

通过执行服务动作来管理集群上一个选定的服务。在 Services tab, 单击 Service Actions 然后单击一个选项。可用的选项取决于选定的服务。例如，HDFS

服务动作，单击 Turn On Maintenance Mode 会阻止该服务生成的警报和状态变化指示，但允许对该服务上启动，停止，重启，迁移，或执行维护任务。

4.5 滚动重启 (Rolling Restarts)

当重启多个服务、组件、或主机时，使用 rolling restarts 来分布任务。一个滚动重启，使用一个批次序列停止并启动多个运行中的 slave 组件，例如

DataNodes, NodeManagers, RegionServers, or Supervisors .

重要提示：

DataNodes 的滚动重启只能在集群维护期间执行。

可以设置滚动重启的的参数值以控制服务的数量，间隔时间，容错限度，以及在大型集群上重启组件数量的限制。

要运行一个滚动重启，执行下列步骤：

① 在 Service 页面左侧的服务列表上，单击一个服务名称

② 在服务的 Summary 页面，单击一个链接，例如 DataNodes 或 RegionServers, 任何要重启的组件Hosts 页面列出集群上存在有所选组件的主机名称

③ 利用 host-level 的 Actions 菜单，单击一个 slave 组件的名称，然后单击 Restart.

④ 为 Rolling Restart Parameters 查看并设置值

⑤ 可选地，重置标志来重启仅修改了配置的组件

⑥ 单击 Trigger Restart

触发重启之后，应该监控后台操作的过程。

4.5.1 设置滚动重启参数 (Setting Rolling Restart Parameters)

选择重启从属组件时，可以利用参数来控制如何重启组件滚动。参数值默认为集群上组件总数的 10%, 例如，对于在有三个节点的集群中的组件, 一个滚动

重启的默认设置是一次重启一个组件，重启间隔是等待 2 分钟，如果只有一个出现故障就继续，并重启运行此服务的所有组件。所有参数输入整数，非零值

Batch Size ：包含在每次重启批次里的组件数量

Wait Time ：每个批次组件排队等候的数据(秒单位)

Tolerate up to x failures ：跨所有批次，在挂起重启并不在排队批次之前，重启失败容许的总数。

4.5.2 终止滚动重启 (Aborting a Rolling Restart)

要终止批次中将来的滚动重启，单击 Abort Rolling Restart

4.6 监控后台操作 (Monitoring Background Operations)

可以利用 Background Operations 窗口监控一个由多个操作组成的任务进度和完成情况，例如重启组件。当运行这样一个任务时，Background Operations

窗口默认是打开的。例如监控一个滚动重启的进度，单击 Background Operations 窗口中的元素：

① 单击每个操作的右箭头显示每一部主机上的重启操作进度

② 重启操作完成后，可以单击右箭头或主机名来查看日志文件以及选定主机上生成的错误信息

② 可选地，可以利用 Background Operations 窗口右上角的 Copy, Open, or Host Logs 图标来复制，打开，或查看操作日志。

也可以选择 Background Operations 窗口底部的复选框来在将来执行任务时隐藏该窗口。

4.7 移除一个服务 (Removing A Service)

重要提示：

移除一个服务是不可逆的并且所有的配置历史将丢失

步骤：

① 在 Services tab 页面的左侧面板，单击服务名称

② 单击 Service Actions > Delete.

③ 提示时，移除任何依赖服务

④ 提示是，停止服务的所有组件

⑤ 确认移除

服务停止后，必须确认移除

4.8 操作审计 (Operations Audit)

当利用 Ambari 执行操作时，例如用户登录或退出，停止或启动服务，添加或移除服务， Ambari 会在一个审计日志中创建一条内容。通过读取审计日志，

可以确定谁执行了操作，操作是什么时间发生的，以及其他操作特定的信息。可以在 Ambari server 主机上找到 Ambari 审计日志：

/var/log/ambari-server/ambari-audit.log

当修改了一个服务的配置信息，Ambari 在审计日志中创建一条内容，并创建一个特殊的日志文件：

ambari-config-changes.log

通过读取配置修改日志，可以发现每次配置修改更多的信息，例如：

2016-05-25 18:31:26,242 INFO - Cluster 'MyCluster' changed by: 'admin';

service_name='HDFS' config_group='default' config_group_id='-1' version='2'

4.9 使用快速链接 (Using Quick Links)

选择 Quick Links 选项可以访问选定服务的一些额外的信息源，例如 HDFS 的 Quick Links 选项包括如下内容：

NameNode JMX

NameNode Logs

Thread Stacks

NameNode UI

Quick Links 不是对每个服务都可用

4.10 刷新 YARN 容量调度器 (Refreshing YARN Capacity Scheduler)

修改 Capacity Scheduler 配置之后，如果没有进行破坏性修改配置信息，YARN 可以不需要重启 ResourceManager 刷新队列。如果执行了破坏性修改，例如

删除一个队列，刷新操作会失败并输出如下信息：Failed to re-init queues . 当进行破坏性修改时，必须执行 ResourceManager 重启来使容量调度器的

修改生效。

刷新 Capacity Scheduler, 执行如下步骤：

① 在 Ambari Web, 浏览到 Services > YARN > Summary.

② 单击 Service Actions, 然后单击 Refresh YARN Capacity Scheduler

③ 确认要执行此操作

刷新操作提交给 YARN ResourceManager

4.11 管理 HDFS (Managing HDFS)

4.11.1 重均衡 HDFS (Rebalancing HDFS)

HDFS 提供了一个 a “balancer” 工具帮助均衡集群中数据块跨 DataNodes 分布。启动均衡进程，执行下列步骤：

① 在 Ambari Web 中，浏览到 Services > HDFS > Summary

② 单击 Service Actions, 然后单击 Rebalance HDFS.

③ 输入 Balance Threshold 值作为磁盘容量到百分比

④ 单击 Start

可以通过打开 Background Operations 窗口监控或取消重均衡进程。

4.11.2 调整垃圾回收 (Tuning Garbage Collection)

Concurrent Mark Sweep (CMS) garbage collection (GC) 进程包括一系列启发式规则用于触发垃圾回收。这使得垃圾回收是不可预测的并趋向于延迟回收，直到抵达容量水平，产生一个 Full GC 错误(有可能中断所有进程)

Ambari 在集群部署期间设置了很多属性的默认值。在 hadoop-env 模板中到 export HADOOP_NameNode_Opts= 子句，有两个参数影响 CMS GC 进程，有如下的默认设置：

● -XX:+UseCMSInitiatingOccupancyOnly

阻止使用 GC 启发

● -XX:CMSInitiatingOccupancyFraction=<percent>

告知 Java VM 何时 CMS 收集器被触发

如果这个值设置得过低，CMS 收集器运行过于频繁；如果设置过高，CMS 收集器触发得太晚，并且可能发生 concurrent mode failure. 默认设置

-XX:CMSInitiatingOccupancyFraction 的值为 70, 意味着应用程序应该利用少于 70% 的容量。

通过修改 NameNode CMS GC 参数来调整垃圾回收，执行如下步骤：

① 在 Ambari Web, 浏览到 Services > HDFS.

② 打开 Configs tab, 并浏览到 Advanced > Advanced hadoop-env

③ 编辑 hadoop-env 模板

④ 保存配置并有提示出现，重启

4.11.3 自定义 HDFS 主目录 (Customizing the HDFS Home Directory)

默认情况下，HDFS 的用户主目录为 /user/<user_name>. 可以利用 dfs.user.home.base.dir 属性自定义 HDFS 主目录

① 在 Ambari Web, 浏览到 Services > HDFS > Configs > Advanced.

② 单击 Custom hdfs-site, 然后单击 Add Property

③ 在弹出到 Add Property 中，添加如下属性：

dfs.user.home.base.dir=<home_directory>

④ 单击 Add, 然后在提示是，保存新配置病重启

4.12 在 Storm 环境内管理 Atlas (Managing Atlas in a Storm Environment)

在 Ambari 中更新 Apache Atlas 配置设置时，Ambari 标记此服务要求重启。要重启这些服务，执行如下步骤：

① 在 Ambari Web, 单击 Actions 控件

② 单击 Restart All Required

提示：

Apache Oozie 在一个 Atlas 配置更新后要求重启，但在 Ambari 中可能没有标记为要求重启。如果 Oozie 没有包含进来，执行如下步骤重启 Oozie:

① 在 Ambari Web, 在服务摘要面板单击 Oozie

② 单击 Service Actions > Restart All.

4.13 启用 Oozie UI (Enabling the Oozie UI)

Ext JS 是 GPL 许可证的软件，并且不再包含在 HDP 2.6 中。因此 Oozie WAR 文件没有构建到 Ext JS-based 用户接口程序中，除非 Ext JS 手动安装到Oozie server. 如果使用 Ambari 2.6.1.3 添加 Oozie 到 HDP2.6.4 或更高版本，默认没有 Oozie UI 可用。如果想要 Oozie UI，必须手动安装 Ext JS到 Oozie server 主机。在重启操作期间，Ambari 重构这个 Oozie WAR 文件并包含 Ext JS-based Oozie UI

步骤：

① 登录到 Oozie Server 主机

② 下载并安装 Ext JS 包

CentOS RHEL Oracle Linux 7:

wget http://public-repo-1.hortonworks.com/HDP-UTILS-GPL-1.1.0.22/repos/centos7/extjs/extjs-2.2-1.noarch.rpm

rpm -ivh extjs-2.2-1.noarch.rpm

③ 移除如下文件：

rm /usr/hdp/current/oozie-server/.prepare_war_cmd

④ 在 Ambari UI 上重启 Oozie Server

Ambari 会重构 Oozie WAR 文件

5. 管理服务高可用性 (Managing Service High Availability)

Ambari web 提供了向导驱动的用户体验，可以配置一些 Hortonworks Data Platform (HDP) stack 服务组件的高可用性。高可用性通过建立主(primary)

和从(secondary) 组件来提供保险。在主组件故障或变为不可用情况下，从组件成为可用。为一个服务配置了高可用性之后，Ambari 可以管理或禁用((roll

back) 该服务内组件的高可用性。

5.1 NameNode 的高可用性 (NameNode High Availability)

为了确保集群上在主 NameNode 主机故障时，另一个 NameNode 总是可用，可用利用 Ambari Web 在集群上启用并配置 NameNode 高可用性。

5.1.1 配置 NameNode 的高可用性 (Configuring NameNode High Availability)

前提要求：

● 核实集群中至少有三部主机，并且至少运行三个 Apache ZooKeeper servers

● 确保 Hadoop Distributed File System (HDFS) 和 ZooKeeper 没有运行在维护模式

在启用 NameNode HA 时，HDFS 和 ZooKeeper 必须停止然后启动。维护模式会阻止这类启动和停止操作。如果 HDFS 或 ZooKeeper 处于维护模式，

NameNode HA 向导不会完全成功。

步骤：

(1) 在 Ambari Web, 选择 Services > HDFS > Summary.

(2) 单击 Service Actions, 然后单击 Enable NameNode HA

(3) Enable HA wizard 启动。这个向导描述了一系列必须执行的自动和手动的步骤来建立 NameNode 高可用性

(4) 在 Get Started 页面，输入 Nameservice ID, 然后单击 Next

在设置了 HA 之后，使用这个 Nameservice ID 而不是 NameNode FDQN

(5) 在 Select Hosts 页面，选择一部主机最为附加 NameNode 以及 JournalNodes,然后单击 Next

(6) 在 Review 页，确认主机的选择，然后单击 Next

(7) 跟随 Manual Steps Required: Create Checkpoint on NameNode 页面上的指导，单击 Next

必须登录到当前 NameNode 主机并运行命令，将 NameNode 置于安全模式并创建检查点

(8) 当 Ambari 检测成功，并且窗口底部的消息变为 Checkpoint created, 单击 Next

(9) 在 Configure Components 页面，监控配置进度条，然后单击 Next

(10)在 Manual Steps Required: Initialize JournalNodes 页面跟随指导，然后单击 Next

必须登录到当前 NameNode 主机运行命令来初始化 JournalNodes.

(11)当 Ambari 检测成功，并窗口底部的消息变为 JournalNodes initialized 时，单击 Next

(12)在 Start Components 页面，监控 ZooKeeper servers 和 NameNode 启动进度条，然后单击 Next在启用 Ranger 的集群上，并且 Hive 配置为使用 MySQL, 如果 MySQL 停止，Ranger 会启动失败。要解决这个问题，启动 Hive 的 MySQL 数据库，然后重试启动组件

(13)在 Manual Steps Required: Initialize NameNode HA Metadata 页面，根据页面上的指导，完成每一步骤，然后单击 Next，在这一步，必须登录到当前 NameNode 和附加 NameNode 主机。确保每个命令登录到正确的主机，在完成每一个命令后，单击 OK 确认。

(14)在 Finalize HA Setup 页，监控向导完成 HA 设置的进度条，单击 Done 结束向导。在 Ambari Web UI 重新载入之后，可能会看到一些警报通知。等几分钟直到所有服务重启

(15)如果必要，使用 Ambari Web 重启任何组件

(16)如果使用 Hive, 必须手动修改 Hive Metastore FS root 指向 Nameservice URI 而不是 NameNode URI. 在 Get Started 步骤创建的 Nameservice ID

步骤：

a. 在 Hive 主机上找到 FS root：

hive --config /etc/hive/conf/conf.server --service metatool -listFSRoot

输出类似于：

Listing FS Roots... hdfs://<namenodehost>/apps/hive/warehouse.

b. 修改 FS root：

$ hive --config /etc/hive/conf/conf.server --service metatool -updateLocation <new-location><old-location>

例如，如果 Nameservice ID 为 mycluster, 输入为：

$ hive --config /etc/hive/conf/conf.server --service metatool -updateLocation hdfs://mycluster/apps/hive/warehouse \

hdfs://c6401.ambari.apache.org/apps/hive/warehouse

输出类似于：

Successfully updated the following locations...Updated X records in SDS table

(17)调整 ZooKeeper Failover Controller retries 设置环境

a. 浏览到 Services > HDFS > Configs > Advanced core-site

b. 设置 ha.failover-controller.active-standbyelector.zk.op.retries=120.

下面步骤：

查看并确认所有建议的配置修改

5.1.2 回滚 NameNode 的高可用性 (CRolling Back NameNode HA)

要禁用(roll back) NameNode 高可用性，执行如下步骤(取决于安装)

(1) 停止 HBase

(2) 检查点活动 NameNode

(3) 停止所有服务

(4) 为回滚准备 Ambari Server Host

(5) 恢复 HBase 配置

(6) 删除 ZooKeeper Failover 控制器

(7) 修改 HDFS 配置

(8) 重新创建 Secondary NameNode

(9) 重新启用 Secondary NameNode

(10)删除所有 JournalNodes

(11)删除附属 NameNode

(12)验证 HDFS 组件

(13)启动 HDFS

5.1.2.1 停止 HBase (Stop HBase)

① 在 Ambari Web 集群表盘，单击 HBase 服务

② 单击 Service Actions > Stop

③ 等待，直到 HBase 完全停止，然后继续

5.1.2.2 检查点活动 NameNode (Checkpoint the Active NameNode)

如果在启用 NameNode HA 之后使用了 HDFS, 但想要回转到非 HA 状态，进行回滚之前必须要设置 HDFS 状态检查点。

如果在 Enable NameNode HA wizard 操作过程中失败并需要回转，可以忽略此步骤，继续进行停止所有服务。

设置 HDFS 状态检查点要求不同的语法，取决于集群上是否启用了 Kerberos 安全

● 如果集群上没有启用 Kerberos 安全，在活动 NameNode 主机上使用如下命令来保存名称空间

sudo su -l <HDFS_USER> -c 'hdfs dfsadmin -safemode enter' sudo su -l <HDFS_USER> -c 'hdfs dfsadmin -saveNamespace'

● 如果集群上已经启用了 Kerberos 安全，使用如下命令来保存名称空间：

sudo su -l <HDFS_USER> -c 'kinit -kt /etc/security/keytabs/nn.service.keytab nn/<HOSTNAME>@<REALM>;hdfs dfsadmin -safemode \

enter' sudo su -l <HDFS_USER> -c 'kinit -kt /etc/security/keytabs/nn.service.keytab nn/<HOSTNAME>@<REALM>;hdfs dfsadmin -saveNamespace'

本例中 <HDFS_USER> 是 HDFS 服务的用户(如 hdfs), <HOSTNAME> 是 Active NameNode 主机名，<REALM> 是 Kerberos realm.

5.1.2.3 停止所有服务 (Stop All Services)

在停止 HBase, 并且如有必要设置了 Activ NameNode 检查点之后，停止所有服务

① 在 Ambari Web, 单击 Services tab

② 单击 Stop All

③ 等待所有服务停止完成之后，继续

5.1.2.4 为回滚准备 Ambari Server 主机 (Prepare the Ambari Server Host for Rollback)

为回滚过程准备：

① 登录到 Ambari server 主机

② 设置如下环境变量

export AMBARI_USER=AMBARI_USERNAME ：替换为 Ambari Web 系统管理员，默认值为 admin

export AMBARI_PW=AMBARI_PASSWORD ：替换为Ambari Web 系统管理员的口令，默认值为 admin

export AMBARI_PORT=AMBARI_PORT ：替换为 Ambari Web 端口，默认为 8080.

export AMBARI_PROTO=AMBARI_PROTOCOL ：替换为连接到 Ambari Web 使用的协议，选项为 http 或 https, 默认为 http

export CLUSTER_NAME=CLUSTER_NAME ：替换为集群名称，如 mycluster

export NAMENODE_HOSTNAME=NN_HOSTNAME ：替换为非 HA 的 NameNode 主机 FDQN, 例如 namenode.mycompany.com

export ADDITIONAL_NAMENODE_HOSTNAME=ANN_HOSTNAME ：替换为设置 HA 时使用的附属 NameNode 主机的 FDQN

export SECONDARY_NAMENODE_HOSTNAME=SNN_HOSTNAME ：替换为非 HA 设置的 secondary NameNode 主机的 FDQN

export JOURNALNODE1_HOSTNAME=JOUR1_HOSTNAME ：替换为第一 Journal 节点主机的 FDQN

export JOURNALNODE2_HOSTNAME=JOUR2_HOSTNAME ：替换为第二 Journal 节点主机的 FDQN

export JOURNALNODE3_HOSTNAME=JOUR3_HOSTNAME ：替换为第三 Journal 节点主机的 FDQN

③ 多检查几遍这些环境变量设置正确

5.1.2.5 恢复 HBase 配置 Host (Restore the HBase Configuration)

如果安装了 HBase, 可能需要恢复到 HA 状态之前的配置。

Note：

对于 Ambari 2.6.0 及更高版本，不再支持 config.sh 并且会失败。使用 config.py

① 从 Ambari server 主机上，确定当前的 HBase 配置是否必须恢复：

/var/lib/ambari-server/resources/scripts/configs.py -u <AMBARI_USER> -p <AMBARI_PW> -port <AMBARI_PORT> get localhost \

<CLUSTER_NAME> hbase-site

使用为回滚准备 Ambari Server 主机设置的环境变量应用命令中的环境变量名。

如果 hbase.rootdir 设置为 Enable NameNode HA 向导中设置的 NameService ID, 必须回转 hbase-site 到非 HA 的值。例如，在

"hbase.rootdir":"hdfs://<name-service-id>:8020/apps/hbase/data" 中，hbase.rootdir 属性指向 NameService ID, 因此这个值必须回滚。

如果 hbase.rootdir 指向一个特定的 NameNode 主机，它就没必要回滚。"hbase.rootdir":"hdfs://<nn01.mycompany.com>:8020/apps/hbase/data",

hbase.rootdir 指向了一个特定的 NameNode 主机而不是 NameService ID, 这就不需要回滚，可以继续进行 ZooKeeper failover 控制器删除

② 如果必须要回滚 hbase.rootdir 值，在 Ambari server 主机上，使用 configs.py 脚本进行必要的修改：

/var/lib/ambari-server/resources/scripts/configs.py -u <AMBARI_USER> -p<AMBARI_PW> -port <AMBARI_PORT> set

localhost <CLUSTER_NAME> hbase-site hbase.rootdir hdfs://<NAMENODE_HOSTNAME>:8020/apps/hbase/data

使用为回滚准备 Ambari Server 主机设置的环境变量应用命令中的环境变量名

③ 在 Ambari server 主机上，验证 hbase.rootdir 属性已恢复正确：

/var/lib/ambari-server/resources/scripts/configs.py -u <AMBARI_USER> -p <AMBARI_PW> -port <AMBARI_PORT> get localhost \

<CLUSTER_NAME> hbase-site

hbase.rootdir 属性现在应该与 NameNode 主机名相同而不是 NameService ID.

5.1.2.6 删除 ZooKeeper Failover 控制器 (Delete ZooKeeper Failover Controllers)

前提准备：

如果在 Ambari 服务器主机上执行如下命令返回一个非空的 items 数组，那么必须删除 ZooKeeper (ZK) Failover Controllers：

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By: ambari" -i <AMBARI_PROTO>://localhost:<AMBARI_PORT>/api/v1/clusters/ \

<CLUSTER_NAME>/host_components?HostRoles/component_name=ZKFC

删除失效控制器：

① 在 Ambari server 主机上，发出如下 DELETE 命令：

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By: ambari" -i -X DELETE <AMBARI_PROTO>://localhost:<AMBARI_PORT>/api/v1/ \

clusters/<CLUSTER_NAME>/hosts/<NAMENODE_HOSTNAME>/host_components/ZKFC curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By: \

ambari" -i -X DELETE <AMBARI_PROTO>://localhost:<AMBARI_PORT>/api/v1/clusters/<CLUSTER_NAME>/hosts/<ADDITIONAL_NAMENODE_HOSTNAME>/ \

host_components/ZKFC

② 验证控制器已被移除

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By: ambari"-i <AMBARI_PROTO>://localhost:<AMBARI_PORT>/api/v1/clusters/ \

<CLUSTER_NAME>/host_components?HostRoles/component_name=ZKFC

这条命令应该返回一个空的 items 数组

5.1.2.7 修改 HDFS 配置 (Modify HDFS Configurations)

可能需要修改 hdfs-site 配置和/或 core-site 配置

前提准备：

通过在 Ambari server 主机上执行下列命令，检查是否需要修改 hdfs-site 配置：

/var/lib/ambari-server/resources/scripts/configs.py -u <AMBARI_USER> -p <AMBARI_PW> -port <AMBARI_PORT> get localhost \

<CLUSTER_NAME> hdfs-site

如果看到如下属性，必须从配置中删除它们

• dfs.nameservices

• dfs.client.failover.proxy.provider.<NAMESERVICE_ID>

• dfs.ha.namenodes.<NAMESERVICE_ID>

• dfs.ha.fencing.methods

• dfs.ha.automatic-failover.enabled

• dfs.namenode.http-address.<NAMESERVICE_ID>.nn1

• dfs.namenode.http-address.<NAMESERVICE_ID>.nn2

• dfs.namenode.rpc-address.<NAMESERVICE_ID>.nn1

• dfs.namenode.rpc-address.<NAMESERVICE_ID>.nn2

• dfs.namenode.shared.edits.dir

• dfs.journalnode.edits.dir

• dfs.journalnode.http-address

• dfs.journalnode.kerberos.internal.spnego.principal

• dfs.journalnode.kerberos.principal

• dfs.journalnode.keytab.file

这里的 <NAMESERVICE_ID> 是在运行 Enable NameNode HA 向导时创建的 NameService ID

修改 hdfs-site 配置：

① 在 Ambari Server 主机上，对每一个发现的属性执行如下命令：

/var/lib/ambari-server/resources/scripts/configs.py -u <AMBARI_USER> -p <AMBARI_PW> -port <AMBARI_PORT> delete

localhost <CLUSTER_NAME> hdfs-site property_name

使用每一个要删除的属性替换 property_name

② 验证所以属性都已删除：

/var/lib/ambari-server/resources/scripts/configs.py -u <AMBARI_USER> -p <AMBARI_PW> -port <AMBARI_PORT> get localhost

<CLUSTER_NAME> hdfs-site

③ 确定是否必须修改 core-site 配置

/var/lib/ambari-server/resources/scripts/configs.py -u <AMBARI_USER> -p <AMBARI_PW> -port <AMBARI_PORT> get localhost

<CLUSTER_NAME> core-site

④ 如果看到 ha.zookeeper.quorum 属性，删除它

/var/lib/ambari-server/resources/scripts/configs.py -u <AMBARI_USER> -p <AMBARI_PW> -port <AMBARI_PORT> delete

localhost <CLUSTER_NAME> core-site ha.zookeeper.quorum

⑤ 如果 fs.defaultFS 设置为 NameService ID, 将它回转到非-HA 值

"fs.defaultFS":"hdfs://<name-service-id>" The property

fs.defaultFS needs to be modified as it points to a NameService

ID "fs.defaultFS":"hdfs://<nn01.mycompany.com>"

⑥ 将 fs.defaultFS 属性回转到 NameNode 主机值

/var/lib/ambari-server/resources/scripts/configs.py -u

<AMBARI_USER> -p <AMBARI_PW> -port <AMBARI_PORT> set localhost

<CLUSTER_NAME> core-site fs.defaultFS hdfs://<NAMENODE_HOSTNAME>

⑦ 验证 core-site 属性现在正确设置了

/var/lib/ambari-server/resources/scripts/configs.py -u

<AMBARI_USER> -p <AMBARI_PW> -port <AMBARI_PORT> get localhost

<CLUSTER_NAME> core-site

fs.defaultFS 属性值应该是 NameNode 主机，并且 ha.zookeeper.quorum 属性不会出现

5.1.2.8 重新创建 Secondary NameNode (Re-create the Secondary NameNode)

需要重新创建 Secondary NameNode

前提准备：

在 Ambari Server 主机上检查是否需要重新创建 Secondary NameNode

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By:

ambari" -i -X GET <AMBARI_PROTO>://localhost:<AMBARI_PORT>/

api/v1/clusters/<CLUSTER_NAME>/host_components?HostRoles/

component_name=SECONDARY_NAMENODE

如果返回一个空的 items 数组，必须重新创建 Secondary NameNode

重新创建 Secondary NameNode

① 在 Ambari Server 主机上，运行如下命令：

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By:

ambari" -i -X POST -d '{"host_components" : [{"HostRoles":

{"component_name":"SECONDARY_NAMENODE"}}] }' <AMBARI_PROTO>://

localhost:<AMBARI_PORT>/api/v1/clusters/<CLUSTER_NAME>/hosts?

Hosts/host_name=<SECONDARY_NAMENODE_HOSTNAME>

② 验证 Secondary NameNode 是否存在。在 Ambari server 主机上，运行如下命令：

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By:

ambari" -i -X GET <AMBARI_PROTO>://localhost:<AMBARI_PORT>/

api/v1/clusters/<CLUSTER_NAME>/host_components?HostRoles/

component_name=SECONDARY_NAMENODE

命令应返回一个非空数组包含 secondary NameNode

5.1.2.9 重新启用 Secondary NameNode (Re-enable the Secondary NameNode)

① 在 Ambari Server 主机上运行如下命令：

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-

By: ambari" -i -X PUT -d '{"RequestInfo":

{"context":"Enable Secondary NameNode"},"Body":

{"HostRoles":{"state":"INSTALLED"}}}'<AMBARI_PROTO>://

localhost:<AMBARI_PORT>/api/v1/clusters/<CLUSTER_NAME>/hosts/

<SECONDARY_NAMENODE_HOSTNAME}/host_components/SECONDARY_NAMENODE

② 分析输出

• 如果返回 200, 继续进行删除所有 JournalNodes

• 如果返回 202, 等待几分钟之后，然后运行下面命令：

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By:

ambari" -i -X GET "<AMBARI_PROTO>://localhost:<AMBARI_PORT>/

api/v1/clusters/<CLUSTER_NAME>/host_components?HostRoles/

component_name=SECONDARY_NAMENODE&fields=HostRoles/state"

等待响应 "state" : "INSTALLED" 然后继续

5.1.2.10 删除所有 JournalNodes (Delete All JournalNodes)

可能需要删除若干个 JournalNodes

前提要求：

在 Ambari Server 主机上检查看看是否需要删除 JournalNodes

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By:

ambari" -i -X GET <AMBARI_PROTO>://localhost:<AMBARI_PORT>/

api/v1/clusters/<CLUSTER_NAME>/host_components?HostRoles/

component_name=JOURNALNODE

如果返回一个空的 items 数组，可以继续，否则必须删除 JournalNodes

删除 JournalNodes：

① 在 Ambari Server 主机上，运行如下命令：

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By: ambari"

-i -X DELETE <AMBARI_PROTO>://localhost:<AMBARI_PORT>/api/

v1/clusters/<CLUSTER_NAME>/hosts/<JOURNALNODE1_HOSTNAME>/

host_components/JOURNALNODE curl -u <AMBARI_USER>:<AMBARI_PW>

-H "X-Requested-By: ambari" -i -X DELETE <AMBARI_PROTO>://

localhost:<AMBARI_PORT>/api/v1/clusters/<CLUSTER_NAME>/hosts/

<JOURNALNODE2_HOSTNAME>/host_components/JOURNALNODE

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By: ambari"

-i -X DELETE <AMBARI_PROTO>://localhost:<AMBARI_PORT>/api/

v1/clusters/<CLUSTER_NAME>/hosts/<JOURNALNODE3_HOSTNAME>/

host_components/JOURNALNODE

② 验证所有的 JournalNodes 已被删除。在 Ambari server 主机上执行：

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By:

ambari" -i -X GET <AMBARI_PROTO>://localhost:<AMBARI_PORT>/

api/v1/clusters/<CLUSTER_NAME>/host_components?HostRoles/

component_name=JOURNALNODE

这条命令应返回空的 items 数组

5.1.2.11 删除附属 NameNode (Delete the Additional NameNode)

可能需要删除附属 NameNode

前提要求：

在 Ambari server 主机上，检查是否需要删除附属 NameNode

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By: ambari" -i

-X GET <AMBARI_PROTO>://localhost:<AMBARI_PORT>/api/v1/clusters/

<CLUSTER_NAME>/host_components?HostRoles/component_name=NAMENODE

如果返回的 items 数组含有两个 NameNode, 必须删除附属 NameNode

删除为 HA 设置的附属 NameNode:

① 在 Ambari Server 主机上，运行如下命令：

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By: ambari"

-i -X DELETE <AMBARI_PROTO>://localhost:<AMBARI_PORT>/api/v1/

clusters/<CLUSTER_NAME>/hosts/<ADDITIONAL_NAMENODE_HOSTNAME>/

host_components/NAMENODE

② 验证附属 NameNode 已删除

curl -u <AMBARI_USER>:<AMBARI_PW> -H "X-Requested-By: ambari" -i

-X GET <AMBARI_PROTO>://localhost:<AMBARI_PORT>/api/v1/clusters/

<CLUSTER_NAME>/host_components?HostRoles/component_name=NAMENODE

返回的 items 数组应含有一个 NameNode

5.1.2.12 验证 HDFS 组件 (Verify the HDFS Components)

启动 HDFS 之前，应验证具有正确的组件

① 浏览到 Ambari Web UI > Services, 然后选择 HDFS

② 检查 Summary 面板病确保前三行类似如下：

• NameNode

• SNameNode

• DataNodes

不应看到 JournalNodes 到行

5.1.2.13 启动 HDFS (Start HDFS)

① 在 Ambari Web UI, 单击 Service Actions, 然后单击 Start.

② 如果进度条没有显示服务已完全启动并且忽略了服务检查，重做第一步

③ 启动所有其他服务，在 Services 页面单击 Actions > Start All

5.1.3 管理 Journal 节点 (Managing Journal Nodes)

在集群上启用 NameNode 高可用性之后，必须在集群上维护至少三个活动的 Journal 节点。可以使用 Manage JournalNode 向导来分配、添加、或移除

JournalNode. Manage JournalNode 向导分配 JournalNodes, 查看并确认必要的配置修改，然后会重启集群上的所有组件，以利用 JournalNode 和配置的

变化。

注意，这个向导会重启所有的集群服务。

前提要求：

集群上必须启用了 NameNode 高可用性

管理集群的 JournalNodes

(1) 在 Ambari Web, 选择 Services > HDFS > Summary.

(2) 单击 Service Actions, 然后单击 Manage JournalNodes

(3) 在 Assign JournalNodes 页面，通过 + 和 - 图标分配，并从下拉式菜单选择主机名称。完成主机分配之后，单击 Next

(4) 在 Review 页面，验证 JournalNodes 主机分配及其相关配置修改。满意之后，单击 Next

(5) 利用远程 shell, 完成 Save Namespace 页面的步骤。成功创建一个检查点后，单击 Next

(6) 在 Add/Remove JournalNodes 页面，监控进度条，然后单击 Next

(7) 跟随 Manual Steps Required: Format JournalNodes 页面指导，然后单击 Next

(8) 在远程 shell 中，确认要初始化 JournalNodes, 在如下提示下输入 Y

Re-format filesystem in QJM to [host.ip.address.1, host.ip.address.2, host.ip.address.3,] ? (Y or N) Y

(9) 在 Start Active NameNodes 页面，服务重启时监控进度条，然后单击 Next

(10)在 Manual Steps Required: Bootstrap Standby NameNode 页面，利用页面上的指导完成每一步骤，然后单击 Next

(11)在远程 shell 中，确认要 bootstrap 备用 NameNode, 在下列提示中输入 Y

RE-format filesystem in Storage Directory /grid/0/hadoop/hdfs/namenode ? (Y or N) Y

(12)在 Start All Services 页面，向导启动所有服务时监控进度条，然后单击 Done 结束向导。

Ambari Web UI 重新载入后，会看到一些警报通知，等几分钟直到所有服务重新启动并且警报清除

(13)如有必要，利用 Ambari Web UI 重启任何组件

5.2 ResourceManager 高可用性 (ResourceManager High Availability)

如果工作于 HDP 2.2 或更高版本环境，可以通过 Enable ResourceManager HA 为 ResourceManager 配置高可用性。

前提要求：

● 集群必须至少有三部主机

● 至少有三个 ZooKeeper server 运行

5.2.1 配置 ResourceManager 高可用性 (Configure ResourceManager High Availability)

访问向导并配置 ResourceManager 高可用性

① 在 Ambari Web, 浏览到 Services > YARN > Summary

② 选择 Service Actions 然后选择 Enable ResourceManager HA.

Enable ResourceManager HA 向导启动，描述一系列必须设置 ResourceManager 高可用性的自动和手动步骤

③ 在 Get Started 页面，阅读启用 ResourceManager HA 概述，然后单击 Next 继续

④ 在 Select Host 页面，接受默认选择，或选择一可用主机，然后单击 Next 继续

⑤ 在 Review Selections 页面，如有必要展开 YARN, 概览所有对 YARN 推荐的配置变化。单击 Next 同意修改并自动配置 ResourceManager HA

⑥ 在 Configure Components 页面，当所有进度条结束时，单击 Complete

5.2.2 禁用 ResourceManager 高可用性 (Disable ResourceManager High Availability)

要禁用 ResourceManager 高可用性，必须删除一个 ResourceManager 并保留一个 ResourceManager. 在要求利用 Ambari API 来修改集群配置来删除

ResourceManage 并利用 ZooKeeper 客户端更新 znode 权限。

前提准备：

由于这些步骤包括使用 Ambari REST API, 应该提前在一个测试环境中测试并验证它们，再到生产环境执行。

禁用 ResourceManager 高可用性

(1) 在 Ambari Web, 停止 YARN 和 ZooKeeper 服务

(2) 在 Ambari Server 主机上，利用 Ambari API 获取 YARN 配置信息到一个 JSON 文件

/var/lib/ambari-server/resources/scripts/configs.py get <ambari.server> <cluster.name> yarn-site yarn-site.json

本例中，ambari.server 是 Ambari Server 主机名，cluster.name 是集群的名称

(3) 在 yarn-site.json 文件中，修改 change yarn.resourcemanager.ha.enabled 为 false, 并删除如下属性：

• yarn.resourcemanager.ha.rm-ids

• yarn.resourcemanager.hostname.rm1

• yarn.resourcemanager.hostname.rm2

• yarn.resourcemanager.webapp.address.rm1

• yarn.resourcemanager.webapp.address.rm2

• yarn.resourcemanager.webapp.https.address.rm1

• yarn.resourcemanager.webapp.https.address.rm2

• yarn.resourcemanager.cluster-id

• yarn.resourcemanager.ha.automatic-failover.zk-base-path

(4) 验证 yarn-site.json 文件中保留下列属性设置为 ResourceManager 主机名

• yarn.resourcemanager.hostname

• yarn.resourcemanager.admin.address

• yarn.resourcemanager.webapp.address

• yarn.resourcemanager.resource-tracker.address

• yarn.resourcemanager.scheduler.address

• yarn.resourcemanager.webapp.https.address

• yarn.timeline-service.webapp.address

• yarn.timeline-service.webapp.https.address

• yarn.timeline-service.address

• yarn.log.server.url

(5) 搜索 yarn-site.json 文件，并删除任何对要删除的 ResourceManage 主机名的引用

(6) 搜索 yarn-site.json 文件，并删除任何仍设置为 ResourceManager IDs 的属性，例如 rm1 and rm2

(7) 保存 yarn-site.json 文件，并设置到 Ambari server

/var/lib/ambari-server/resources/scripts/configs.py set ambari.server cluster.name yarn-site yarn-site.json

(8) 利用 Ambari API, 删除要删除的 ResourceManager 主机组件

curl --user admin:admin -i -H "X-Requested-By: ambari" -X DELETE http://ambari.server:8080/api/v1/clusters/cluster.name/hosts/ \

hostname/host_components/RESOURCEMANAGER

(9) 在 Ambari Web 中，启动 ZooKeeper 服务

(10)在一个安装了 ZooKeeper client 的主机上，使用 ZooKeeper client 修改 znode 许可权限：

/usr/hdp/current/zookeeper-client/bin/zkCli.sh

getAcl /rmstore/ZKRMStateRoot

setAcl /rmstore/ZKRMStateRoot world:anyone:rwcda

(11)在 Ambari Web, 重启 ZooKeeper 服务并启动 YARN 服务。

5.3 HBase 高可用性 (HBase High Availability)

为了在生产环境中帮助实现高可用性冗余。 Apache HBase 支持在集群中部署多个 Master. 如果工作于 Hortonworks Data Platform (HDP) 2.2 或更高版本

环境，Apache Ambari 通过简单的设置实现多个 HBase Masters

在 Apache HBase 服务安装期间和取决于组件分配，Ambari 安装并配置一个 HBase Master 组件以及多个 RegionServer 组件。为了配置 HBase 服务的高

可用性，可以运行两个或更多的 HBase Master 组件。HBase 利用 Zookeeper 来协调集群中运行的两个或多个 HBase Master 其中的活动 Master. 这意味着

当 primary HBase Master 失效时，客户端会自动被转移到 secondary Master.

● 通过 Ambari 设置多个 HBase Masters (Set Up Multiple HBase Masters Through Ambari)

Hortonworks 建议使用 Ambari 来配置多个 HBase Master. 完成如下任务：

● 向新创建集群添加第二 HBase Master (Add a Secondary HBase Master to a New Cluster)

在安装 HBase 时，单击显示在已选中的 HBase Master 右侧的 + 符号图标添加并选择一个节点来部署第二个 HBase Master

● 向已存在集群添加新的 HBase Master (Add a New HBase Master to an Existing Cluster)

① 以集群管理员账号登录到 Ambari 管理 UI

② 在 Ambari Web, 浏览到 Services > HBase.

③ 在 Service Actions, 单击 + Add HBase Master

④ 选要安装 HBase master 的主机，然后单击 Confirm Add.

Ambari 安装这个新的 HBase Master 并识别 HBase 来管理多个 Master 实例

● 手动设置多个 HBase Masters (Set Up Multiple HBase Masters Manually)

在手动配置多个 HBase Masters 之前，必须根据安装过程中的指导配置集群上的第一个节点(node-1)，然后完成下面的任务：

① 配置无密码 SSH 访问

② 准备 node-1

③ 准备 node-2 和 node-3

④ 启动并配置 HBase 集群

● 配置无密码 SSH 访问 (Configure Passwordless SSH Access)

集群上的第一个节点(node-1)必须能登录到集群到其它主机，并且然后可以再登录回自己来启动守护进程。可以在所有主机上使用同一用户名并使用

无密码 SSH 登录来达成此目的。

① 在 node-1 上，停止 HBase 服务

② 在 node-1 上，以 HBase 用户登录并生成 SSH key 对

$ ssh-keygen -t rsa

系统打印出 key 对的存储位置，默认的公钥为 id_rsa.pub

③ 在其他节点上创建目录来保存公钥

在 node-2 上，以 HBase 用户登录主机并在用户主目录创建 .ssh/ 目录

在 node-3 上，重复这一过程

④ 利用 scp 或其他标准安全工具从 node-1 上复制公钥到其它两个节点

在每个节点上创建一个新文件 .ssh/authorized_keys 并把 id_rsa.pub 文件内容添加到这个文件中

$ cat id_rsa.pub >> ~/.ssh/authorized_keys

确保不是复写到 .ssh/authorized_keys 文件。

⑤ 从 node-1 以同一个用户名使用 SSH 登录其它节点。应该不会提示输入密码

⑥ 在 node-2 节点，重复第五步，因为它作为一个备份 Master 运行

● 准备 node-1 (Prepare node-1)

因为 node-1 要作为 primary Master 和 ZooKeeper 进程运行，必须停止 node-1 上启动的 RegionServer

① 编辑 conf/regionservers 文件移除包含 localhost 的行，并为 node-2 和 node-3 添加主机名或 IP 地址

Note：

如果想要在 node-1 上运行 RegionServer, 应通过主机名指向它，其他服务器可以用来与之通信。如对于 node-1, 用作 node-1.test.com

② 配置 HBase 使用 node-2 作为一个备份 Master, 通过在 conf/ 下创建一个新文件，称为 backup-Masters, 在文件内用 node-2 的主机名添加

一行，如 node-2.test.com

③ 在 node-1 上通过编辑 conf/hbase-site.xml 来配置 ZooKeeper, 添加如下属性：

<name>hbase.zookeeper.quorum</name>

</property>

<name>hbase.zookeeper.property.dataDir</name>

<value>/usr/local/zookeeper</value>

</property>

这个配置指示 HBase 在集群的每个节点上启动并管理一个 ZooKeeper 实例

④ 修改配置中每个以 localhost 引用到 node-1 的配置指向到主机名，例如，node-1.test.com

● 准备 node-2 和 node-3 (Prepare node-2 and node-3)

在准备 node-2 和 node-3 之前，每个节点必须有相同的配置信息

node-2 运行为一个被非法 Master 服务器和一个 ZooKeeper 实例

① 在 node-2 和 node-3 上下载并解包 HBase

② 复制 node-1 上的配置文件到 node-2 和 node-3

③ 复制 conf/ 目录的内容到 node-2 和 node-3 的 conf/ 目录

● 启动并测试 HBase 集群 (Start and Test your HBase Cluster)

① 使用 jps 命令确保 HBase 没有运行

② 杀掉 HMaster, HRegionServer, 以及 HQuorumPeer 进程，如果他们正在运行

③ 在 node-1 上通过运行 start-hbase.sh 启动集群。必须有类似如下的输出：

$ bin/start-hbase.sh

node-3.test.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.3-

hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-3.test.com.out

node-1.example.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.

3-hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-1.test.com.out

node-2.example.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.

3-hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-2.test.com.out

starting master, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/

hbase-hbuser-master-node-1.test.com.out

node-3.test.com: starting regionserver, logging to /home/hbuser/hbase-0.98.

3-hadoop2/bin/../logs/hbase-hbuser-regionserver-node-3.test.com.out

node-2.test.com: starting regionserver, logging to /home/hbuser/hbase-0.98.

3-hadoop2/bin/../logs/hbase-hbuser-regionserver-node-2.test.com.out

node-2.test.com: starting master, logging to /home/hbuser/hbase-0.98.3-

hadoop2/bin/../logs/hbase-hbuser-master-node2.test.com.out

ZooKeeper 首先启动，然后是 Master, 然后是 RegionServer, 最后是 backup Masters

④ 在每一个节点上运行 jps 命令来验证每一个服务器上运行了正确的进程

可能看到额外的 Java 进程也运行在服务器上，如果它们也用于其他目的

Example1. node-1 jps Output

$ jps

20355 Jps

20071 HQuorumPeer

20137 HMaster

Example 2. node-2 jps Output

$ jps

15930 HRegionServer

16194 Jps

15838 HQuorumPeer

16010 HMaster

Example 3. node-3 jps Output

$ jps

13901 Jps

13639 HQuorumPeer

13737 HRegionServer

ZooKeeper 进程名

Note：

HQuorumPeer 进程是 ZooKeeper 实例，由 HBase 控制和启动。如果以这种方式使用 ZooKeeper，受限制为每个集群节点一个实例，并且

只适用于测试。如果 ZooKeeper 运行在 HBase 之外，进程叫做 QuorumPeer.

⑤ 浏览到 Web UI 并测试新的连接

应该可以连接到 Master UI http://node-1.test.com:16010/

或者 secondary master http://node-2.test.com:16010/

可以在 16030 端口看到每一个 RegionServer 的 web UI

5.4 Hive 高可用性 (Hive High Availability)

Apache Hive 服务有多个相关联的组件。主要的 Hive 组件是 Hive Metastore 和 HiveServer2. 可以在 HDP 2.2 或以后版本中为 Hive 服务配置高

可用性，运行两个或更多的相关组件。

5.4.1 添加 Hive Metastore (Adding a Hive Metastore Component)

前提准备：

如果 Hive 中有 ACID 启用，确保 Run Compactor 设置时启用的(设置为 True) on only one Hive metastore 主机

步骤：

① 在 Ambari Web, 浏览到 Services > Hive

② 在 Service Actions, 单击 + Add Hive Metastore 选项

③ 选取要安装另外的 Hive Metastore 的主机，然后单击 Confirm Add

④ Ambari 安装组件并重新配置 Hive 来处理多个 Hive Metastore 实例

5.4.2 添加 HiveServer2 组件 (Adding a HiveServer2 Component)

步骤：

① 在 Ambari Web，浏览到要安装另一个 HiveServer2 组件的主机

② 在 Host 页，单击 +Add.

③ 从列表中单击 HiveServer2

Ambari 安装另外的 HiveServer2

5.4.3 添加 WebHCat Server (Adding a WebHCat Server)

步骤：

① 在 Ambari Web，浏览到要安装另一个 WebHCat 服务器的主机

② 在 Host 页，单击 +Add.

③ 从列表中单击 WebHCat

Ambari 安装新服务器并重新配置组 Hive

5.5 Storm 高可用性 (Storm High Availability)

HDP 2.3 及以后版本，可以通过在 Ambari 上添加 Nimbus 组件配置 Apache Storm Nimbus 服务器高可用性。

5.5.1 添加一个 Nimbus 组件 (Adding a Nimbus Component)

步骤：

① 在 Ambari Web, 浏览到 Services > Storm

② 在 Service Actions, 单击 + Add Nimbus 选项

③ 单击要安装另外的 Nimbus 的主机，然后单击 Confirm Add

Ambari 安装组件并重新配置 Storm 来处理多个 Nimbus 实例

5.6 Oozie 高可用性 (Oozie High Availability)

HDP 2.2 及以后版本，可以设置 Apache Oozie 服务的高可用性，可以运行两个或多个 Oozie Server 组件。

前提准备：

● 使用默认安装的 Derby 数据库实例不支持多 Oozie Server 实例，因此必须使用已有的关系数据库。当使用 Apache Derby 为 Oozie Server 提供

数据库时，没有添加 Oozie Server 组件到集群中的选项

● 对 Oozie 高可用性要求使用外部虚拟 IP 地址(an external virtual IP address) 或负载均衡器(load balancer) 将流量转发给多个 Oozie 服务器。

5.6.1 添加一个 Oozie 服务器组件 (Adding an Oozie Server Component)

步骤：

(1) 在 Ambari Web, 浏览到要安装另一个 Oozie server 的主机

(2) 在 Host 页, 单击 +Add 按钮

(3) 从列表中单击 Oozie server

(4) 配置外部负载均衡器，然后更新 Oozie 配置

(5) 浏览到 Services > Oozie > Configs

(6) 在 oozie-site, 添加如下熟悉值：

oozie.zookeeper.connection.string

列出 ZooKeeper 主机，带有端口，例如：

c6401.ambari.apache.org:2181,

c6402.ambari.apache.org:2181,

c6403.ambari.apache.org:2181

oozie.services.ext

org.apache.oozie.service.ZKLocksService,

org.apache.oozie.service.ZKXLogStreamingService,

org.apache.oozie.service.ZKJobsConcurrencyService

oozie.base.url

http://<Cloadbalancer.hostname>:11000/oozie

(7) 在 oozie-env 中，撤销 oozie_base_url 属性注释，并修改它的值指向负载均衡器：

export oozie_base_url="http://<loadbalance.hostname>:11000/oozie"

(8) 重启 Oozie

(9) 为 Oozie proxy user 更新 HDFS 配置属性

a. 浏览到 Services > HDFS > Configs

b. 在 core-site 中，更新 hadoop.proxyuser.oozie.hosts 属性，包含新添加的 Oozie server 主机。使用逗号分隔的多个主机名

(10)重启服务

5.7 Apache Atlas 高可用性 (Apache Atlas High Availability)

步骤：

(1) 在 Ambari 表盘上，单击 Hosts, 然后选择要安装备用 Atlas Metadata Server 的主机

(2) 在新 Atlas Metadata Server 主机的 Summary 页面，单击 Add > Atlas Metadata Server

Ambari 添加新的 Atlas Metadata Server 为 Stopped 状态

(3) 单击 Atlas > Configs > Advanced

(4) 单击 Advanced application-properties 并添加 atlas.rest.address 属性，使用逗号分隔，值为新的 Atlas Metadata Server：

,http(s):<host_name>:<port_number>

默认协议是 "http", 如果 atlas.enableTLS 属性设置为 true, 使用 "https". 同时，默认的 HTTP 端口为 21000, 并且默认额 HTTPS 端口为 21443

这些值可以分别使用 atlas.server.http.port 和 atlas.server.https.port 属性覆盖

(5) 停止所有当前正在运行的 Atlas Metadata Servers

重要提示：

必须使用 Stop 命令来停止 Atlas Metadata Servers . 不要使用 Restart 命令：这会尝试首先停止新创建的 Atlas Server, 此时在

/etc/atlas/conf 中还没有包含任何配置信息

(6) 在 Ambari 表盘上, 单击 Atlas > Service Actions > Start

Ambari 会自动配置 Atlas 在 /etc/atlas/conf/atlas-application.properties 文件中如下属性：

• atlas.server.ids

• atlas.server.address.$id

• atlas.server.ha.enabled

(7) 要刷新配置文件，重启如下含有 Atlas hooks 的服务：

• Hive

• Storm

• Falcon

• Sqoop

• Oozie

(8) 单击 Actions > Restart All Required 来重启所有要求重启的服务

当在 Ambari 中更新了 Atlas 的配置设置， Ambari 标记了要求重启的服务

(9) 单击 Oozie > Service Actions > Restart All 以重启 Oozie 以及其相关服务

Apache Oozie 在 Atlas 配置更新之后要求重启，但有可能没有包含到 Ambari 标记要求重启的服务中

5.8 启用 Ranger Admin 高可用性 (Enabling Ranger Admin High Availability)

在 Ambari 管理的集群上，可以配置 Ranger Admin 高可用性带有或不带有 SSL 。

步骤：

● HTTPD setup for HTTP - 在 Ambari 中启用 Ranger Admin HA, 从第 16 步开始：

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.4/bk_hadoop-high-availability/content/configure_ranger_admin_ha.html \

#configure_ranger_admin_ha_without_ssl

● HTTPD setup for HTTPS - 在 Ambari 中启用 Ranger Admin HA, 从第 14 步开始

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.4/bk_hadoop-high-availability/content/configure_ranger_admin_ha.html \

#configure_ranger_admin_ha_with_ssl

6 管理配置 (Managing Configurations)

可以通过调整配置设置和属性值来优化集群上的 Hadoop 组件的性能。也可以利用 Ambari Web 通过如下方法，来建立和管理配置分组及配置设置的版本：

• Changing Configuration Settings

• Manage Host Config Groups

• Configuring Log Settings

• Set Service Configuration Versions

• Download Client Configuration Files

6.1 修改配置设置 (Changing Configuration Settings)

可以通过每一个服务的 Configs 页面优化服务性能。Configs 页面包含几个选项卡，用于管理配置版本，分组，设置，属性和值。可以调整设置，称为

"Smart Configs" 在宏级别(macro-level) 进行控制，每个服务的内存分配。调整 Smart Configs 要求相关配置的设置修改整个集群范围。Ambari 提示检验

并确认所有建议的修改并重启相关服务。

步骤：

① 在 Ambari Web 中，在左侧的服务列表上单击服务名称

② 从服务的 Summary 页面，单击 Configs 选项卡，然后利用如下选项卡管理配置设置

利用 Configs tab 管理配置版本和分组

利用 Settings tab 管理 "Smart Configs", 通过调整绿色的滑动按钮

利用 Advanced tab 编辑特殊配置属性和值

③ 单击 Save

6.1.1 调整智能配置设置 (Adjust Smart Config Settings)

利用 Settings tab 管理 "Smart Configs", 通过调整绿色滑动按钮

步骤：

① 在 Settings tab, 单击并拖拽绿色滑动按钮到理想值

② 编辑显示为 Override 选项的属性

③ 单击 Save

6.1.2 编辑特定属性 (Edit Specific Properties)

利用每个服务 Configs 页面的 Advanced tab 访问影响该服务性能的属性组

步骤：

① 在服务的 Configs 页面，单击 Advanced

② 在 Configs Advanced 页面，展开类别

③ 编辑属性值

④ 单击 Save

6.1.3 检验并确认配置修改 (Review and Confirm Configuration Changes)

当修改了一个配置属性值是，Ambari Stack Advisor 捕捉到修改，并建议修改受此修改影响的所有相关的配置属性。修改一个属性，一个 "Smart

Configuration", 以及其他动作，例如添加或删除一个服务、主机或 ZooKeeper server, 或迁移一个 master, 或者启用一个组件的高可用性，所有要求检验

(review)并确认相关配置的修改。例如，如果提升 YARN 的 Minimum Container Size (Memory), Dependent Configurations 列出所有建议的修改，对此必须

检验(review) 并(可选地)接受(accept)。

修改的类型突出显示为如下颜色：

值修改：黄色

添加的属性：绿色

删除的属性：红色

检验并确认配置属性修改

步骤：

① 在 Dependent Configurations, 对于每个列出的属性检验摘要信息

② 如果这个修改可以接受，继续检验列表中的下一条属性

③ 如果这个修改不可接受，单击属性前边的蓝色复选框标记

单击复选框标记会清除复选框，清除复选框的修改是没有确认的，并且也不会发生修改

④ 检验所有列出的修改之后，单击 OK 以确认所有标记的修改会发生

6.1.4 重启组件 (Restart Components)

编辑并保存配置修改之后，一个 Restart 指示器会出现在组件旁边要重启以利用更新的配置值

① 单击指示的 Components 或 Hosts 链接来查看有关请求重启的细节

② 单击 Restart 然后单击适宜的动作

6.2 管理主机配置分组 (Manage Host Config Groups)

Ambari 初始将所有安装的服务分配集群上所有主机到一个默认的配置分组。例如，使用默认配置部署一个三个节点的集群，HDFS 服务的每个主机都属于一个

具有默认配置设置信息的配置组。

● 管理配置分组：

① 单击服务名称，然后单击 Configs

② 在 Configs 页面，单击 Manage Config Groups

● 要创建一个新配置组，重新分配主机，并覆盖主机组件的默认设置，可以利用 Manage Configuration Groups 控件：

① 在 Manage Config Groups 中, 单击 Create New Configuration Group 的 + 符号按钮

② 命名并描述配置组的名称，然后选择 OK

● 向新的配置组中添加主机

① 在 Manage Config Groups 中，单击配置组名称

② 单击 Add Hosts to selected Configuration Group + 符号按钮

③ 利用 Select Configuration Group Hosts, 单击 Components, 然后从列表中单击一个组件名称

选取一个组件过滤主机列表，只有所选服务组件存在的主机会列出。要进一步过滤可用主机名称列表，可以利用 Filter 的下拉列表。默认情况系，

主机列表通过 IP 地址过滤

④ 过滤主机列表之后，单击每个要包含进配置分组主机的复选框

⑤ 单击 OK

⑥ 在 Manage Configuration Groups 中，单击 Save

● 编辑配置分组设置

① 在 Configs, 单击组名称

② 单击一个 Config Group, 展开组件找到允许 Override 的设置

③ 提供一个默认值，然后单击 Override 或 Save

配置组强制配置属性允许覆盖，取决于所选服务和组安装的组件

④ Override 提示选取如下选项之一：

a. 或者单击一个已存在配置组的名称，属性值被第三步提供的值覆盖

b. 或者创建一个新的配置组，包含默认值，加上被第三步提供的值覆盖的值

c. 单击 OK.

⑤ 单击 Save

6.3 配置日志设置 (Configuring Log Settings)

Ambari 利用 Log4j properties 属性集控制 Hadoop 集群上运行的每一个服务的日志活动。最初，每个属性的默认值在 <service_name>-log4j template

模板文件中。Log4j 的属性和值限制了日志文件的大小和日志文件备份的数量，每个服务会超过 log4j 模板文件的设置。要访问每个服务默认的 Log4j 设置，

在 Ambari Web 中，浏览到 <Service_name> > Configs > Advanced <service_name>-log4j

● 修改一个服务的日志文件大小和备份数量：

① 编辑 <service_name> backup file size 以及 <service_name> # of backup files 属性值

② 单击 Save

● 自定义一个服务的 Log4j 设置：

① 在 <service_name> log4j template 中编辑属性

② 复制 log4j 模板文件内容

③ 浏览到 custom <service_name>log4j 属性组

④ 将复制到内容粘贴到 custom <service_name>log4j properties, 覆盖掉默认掉内容

⑤ 单击 Save

⑥ 提示时，检验并确认建议的配置修改

⑦ 如果提示，重启受影响的服务

重启服务中的组件会推送显示在 Custom log4j.properites 中的配置属性到每一部运行该服务组件的主机。

如果自定义了日志属性，定义每个服务怎样的活动记入日志，需要刷新每个服务名称前的指示器。确保显示在 Custom logj4.properties 中的日志属性

包含自定义信息。

可选地，可以创建配置组来包含自定义日志属性。

6.4 设置服务配置版本 (Set Service Configuration Versions)

Ambari 可以管理配置相关的服务。可以修改配置信息，查看修改历史，比较并恢复修改，以及推送配置变化到集群主机

6.4.1 基本概念 (Basic Concepts)

理解 Ambari 中服务配置如何组织和存储非常重要。属性分组成配置类型，一系列配置类型组成了一个服务的配置集。

例如， Hadoop Distributed File System (HDFS) 服务包括 hdfs-site, coresite, hdfs-log4j, hadoop-env, and hadoop-policy 配置类型。如果浏览到

Services > HDFS > Configs, 可以编辑这些配置类型的配置属性。

Ambari 在服务级别执行配置版本化。因此，当在一个服务上修改一个配置属性时，Ambari 创建一个服务配置版本。

6.4.2 术语 (Terminology)

配置属性(configuration property) : 配置属性由 Ambari 管理，例如 NameNode 堆大小和复制因子

配置类型(configuration type, config type): 配置属性的组，例如，hdfs-site

服务配置(service configurations) : 特定服务的配置类型集，例如，hdfs-site 和 core-site 作为 HDFS 服务配置的一部分

修改注释(change notes) ：作为服务配置修改可选的注释

服务配置版本(service config version, SCV) : 特定服务的一个配置版本

主机配置组(host config group, HCG) : 一系列配置属性应用到一个特定的主机集合

6.4.3 保存修改 (Saving a Change)

① 在 Configs, 修改某一配置属性的值

② 选择 Save

③ 可选地，输入描述修改地注释

④ 单机 Cancel 继续编辑，单击 Discard 保持控件没有任何修改，或者单击 Save 确认修改

6.4.4 查看历史 (Viewing History)

Ambari Web 中，可以在两个位置查看配置变化历史：Dashboard 页面的 Config History tab, 和每个服务页面的 Configs tab

Dashboard > Config History tab 页面显示一个所有服务所有版本的表格，每个版本的号码和创建的时间日期。也可以看到是哪个用户修改的配置，以及修改

的注释。使用这个表格，可以过滤，排序，以及搜索版本。

Service > Configs tab 页面只显示最近配置的修改，当然也可以使用版本滚动条查看更早版本。利用这个选项卡可以快速访问服务最近的配置修改

利用这个视图，可以单击滚动条内的任何版本来查看，也可以将鼠标指针悬停在版本上以显示一个选项菜单，可以进行版本比较和执行恢复操作，可以选定

任何一个最为当前版本。

6.4.5 比较版本 (Comparing Versions)

当在 Services > Configs tab 页面浏览版本滚动时，可以将鼠标指针悬停在版本上显示 view, compare, or revert (make current) 选项。

比较两个服务配置版本：

① 导航到某个配置版本，如 V6

② 利用版本滚动条，找到要与 V6 进行比较到版本，利润 V2

③ 将鼠标指针悬停在 V2 上显示选项菜单，然后单击 Compare.

Ambari 显示 V6 和 V2 的比较，伴随一个 revert to V2 ((Make V2 Current) 的选项。Ambari 也在 Filter 控件新，通过 Changed properties 过滤显示

6.4.6 恢复修改 (Reverting a Change)

通过 Make Current 特性可以恢复到一个旧的服务配置版本。Make Current 从选择恢复的版本上，创建一个新的服务配置版本，效果上，相当于一个克隆

启动 Make Current 操作后，在 Make Current Confirmation 提示上，输入注释并保存(Make Current)

有多种方法可以恢复到一个之前的配置版本：

● 查看一个特定的版本，然后单击 Make V* Current:

● 使用版本导航，然后单击 Make Current

● 将鼠标指针悬停到版本滚动条中到一个版本，然后单击 Make Current

● 执行版本比较，然后单击 Make V* Current

6.4.7 主机配置组 (Host Config Groups)

服务配置版本作用域范围是到一个主机配置组。例如，在默认组中的修改可以在那个配置组中被比较和恢复，自定义组中也应用同样的方式。

6.5 下载客户端配置文件 (Download Client Configuration Files)

客户端配置文件包括：.xml 文件, env-sh 脚本, 以及 log4j 属性用于配置 Hadoop 服务。对于包括客户端组件的服务(大多数服务，除了 SmartSense 和

Ambari Metrics 服务)，可以下载与那个服务相关联的客户端配置文件。也可以下载整个集群的客户端配置文件作为一个存档文件。

● 为单一服务下载客户端配置文件：

步骤：

① 在 Ambari Web 中，浏览到想要配置到服务

② 单击 Service Actions

③ 单击 Download Client Configs

浏览器下载一个 "tarball" 存档文件只包含选定服务的客户端配置文件到浏览器默认的，本地下载目录

④ 如果提示保存或打开客户端配置文件

⑤ 单击 Save File, 然后单击 OK

● 要为整个集群下载所有客户端配置文件

① 在 Ambari Web, 在服务列表底部单击 Actions

② 单击 Download Client Configs

浏览器下载一个 "tarball" 存档文件包含集群所有客户端配置文件到浏览器默认的，本地下载目录

因版面有限，后面内容添加下面微领取完整资料！备注：博客

华为云开发者联盟

为开发者提供学习成长、分享交流、生态实践、资源工具等服务，帮助开发者快速成长。

更多推荐

华为云Stack8.3面向香港正式发布，六大亮点激发云上跃迁

华为云开发者联盟

GaussDB SQL查询语句执行过程解析

华为云开发者联盟

6个实例带你解读TinyVue 组件库跨框架技术

华为云开发者联盟

所有评论(0)

查看更多评论

大数据研习社

@dajiangtai007

已为社区贡献11条内容

【史上最全】Ambari 大数据集群运维与管理操作指南

大数据研习社

作 用

功 能

使 用

一、Dashboard（仪表盘）

二、Service

三、Hosts

四、管理服务 (Managing Services)

因版面有限，后面内容添加下面微领取完整资料！备注：博客

所有评论(0)

大数据研习社

作用

功能

使用