Hbase的安装和基础编程

（一）安装Hbase，能够查询Hbase的版本由于HBase对Hadoop具有版本依赖性，所以在安装HBase2.2.2时要首先安装Hadoop3.1.3。①解压hbase-2.2.2-bin.tar.gz文件压缩格式的文件hbase-2.2.2-bin.tar.gz下载到本地电脑，保存在“/home/hadoop/下载”下，现在解压包装包至路径 /usr/local下。②文件改名将解压的文件名h

半濠春水

3618人浏览 · 2022-05-07 17:31:21

半濠春水 · 2022-05-07 17:31:21 发布

（一）安装Hbase，能够查询Hbase的版本

由于HBase对Hadoop具有版本依赖性，所以在安装HBase2.2.2时要首先安装Hadoop3.1.3。

①解压hbase-2.2.2-bin.tar.gz文件

压缩格式的文件hbase-2.2.2-bin.tar.gz下载到本地电脑，保存在“/home/hadoop/下载”下，现在解压包装包至路径 /usr/local下。

②文件改名

将解压的文件名hbase-2.2.2改为hbase以方便使用。

把hbase目录权限赋予给hadoop用户。

③配置环境变量

将hbase下的bin目录添加到path中，这样启动hbase就无需到/usr/local/hbase目录下，大大的方便了hbase的使用。

编辑~/.bashrc文件，在尾行添加export PATH=$PATH:/usr/local/hbase/bin

如果已经引入过PATH则在export PATH这行追加/usr/local/hbase/bin，这里的“：”是分隔符。

编辑完成后，再执行source命令使上述配置在当前终端立即生效。

④添加HBase权限

⑤ 查看HBase版本，确定hbase安装成功

看到输出版本消息表示HBase已经安装成功。

（二）单机运行Hbase系统

①配置/usr/local/hbase/conf/hbase-env.sh

配置JAVA环境变量，并添加配置HBASE_MANAGES_ZK为true，用vi命令打开并编辑hbase-env.sh。

由于之前已经安装过Hadoop3.1.3，则已经安装了JDK1.8。JDK的安装目录是/usr/lib/jvm/jdk1.8.0_162，则JAVA _HOME =/usr/lib/jvm/jdk1.8.0_162；配置HBASE_MANAGES_ZK为true，表示由hbase自己管理zookeeper，不需要单独的zookeeper。hbase-env.sh中本来就存在这些变量的配置，所以只需要删除前面的#并修改配置内容即可(#代表注释)。添加完成后保存退出即可。

②配置/usr/local/hbase/conf/hbase-site.xml

打开并编辑hbase-site.xml。

在启动HBase前需要设置属性hbase.rootdir，用于指定HBase数据的存储位置，因为如果不设置的话，hbase.rootdir默认为/tmp/hbase-${user.name},这意味着每次重启系统都会丢失数据。此处设置为HBase安装目录下的hbase-tmp文件夹即（/usr/local/hbase/hbase-tmp）,添加配置如下：

③测试运行

首先切换目录至HBase安装目录/usr/local/hbase；再启动HBase。其中sudo bin/start-hbase.sh用于启动HBase，bin/hbase shell用于打开shell命令行模式，用户可以通过输入shell命令操作HBase数据库。成功启动HBase。

停止HBase运行,命令如下。

注意：如果在操作HBase的过程中发生错误，可以通过{HBASE_HOME}目录（/usr/local/hbase）下的logs子目录中的日志文件查看错误原因。

（三）实现Hbase的伪分布式启动

①配置/usr/local/hbase/conf/hbase-env.sh

在这里插入图片描述

配置JAVA_HOME，HBASE_CLASSPATH，HBASE_MANAGES_ZK.
HBASE_CLASSPATH设置为本机HBase安装目录下的conf目录（即/usr/local/hbase/conf）

②配置/usr/local/hbase/conf/hbase-site.xml

用命令vi打开并编辑hbase-site.xml，命令如下。

修改hbase.rootdir，指定HBase数据在HDFS上的存储路径；将属性hbase.cluter.distributed设置为true。假设当前Hadoop集群运行在伪分布式模式下，在本机上运行，且NameNode运行在9000端口。

hbase.rootdir指定HBase的存储目录；hbase.cluster.distributed设置集群处于分布式模式.另外，上面配置文件中，hbase.unsafe.stream.capability.enforce这个属性的设置，是为了避免出现启动错误。也就是说，如果没有设置hbase.unsafe.stream.capability.enforce为false，那么，在启动HBase以后，会出现无法找到HMaster进程的错误，启动后查看系统启动日志（/usr/local/hbase/logs/hbase-hadoop-master-ubuntu.log）会发现错误。

③测试运行HBase

a. 首先登陆ssh，之前设置了无密码登陆，因此这里不需要密码；再切换目录至/usr/local/hadoop ；再启动hadoop，如果已经启动hadoop请跳过此步骤。

输入命令jps，能看到NameNode,DataNode和SecondaryNameNode都已经成功启动，表示hadoop启动成功。

b. 切换目录至/usr/local/hbase，再启动HBase。

c.启动成功，输入命令jps，看到以下界面说明hbase启动成功。

d.进入shell界面

④停止HBase运行

注意：如果在操作HBase的过程中发生错误，可以通过{HBASE_HOME}目录（/usr/local/hbase）下的logs子目录中的日志文件查看错误原因。
这里启动关闭Hadoop和HBase的顺序一定是：
启动Hadoop—>启动HBase—>关闭HBase—>关闭Hadoop

（四）运行Hbase相关的Shell命令，实现表的创建，数据插入，数据删除，以及数据查看等操作

1. 利用Shell命令

①1.1 HBase中创建表
a.HBase中用create命令创建表。

此时，即创建了一个“student”表，属性有：Sname,Ssex,Sage,Sdept,course。因为HBase的表中会有一个系统默认的属性作为行键，无需自行创建，默认为put命令操作中表名后第一个数据。创建完“student”表后，可通过describe命令查看“student”表的基本信息。

2. HBase数据库基本操作

在添加数据时，HBase会自动为添加的数据添加一个时间戳，故在需要修改数据时，只需直接添加数据，HBase即会生成一个新的版本，从而完成“改”操作，旧的版本依旧保留，系统会定时回收垃圾数据，只留下最新的几个版本，保存的版本数可以在创建表的时候指定。
①添加数据
HBase中用put命令添加数据，注意：一次只能为一个表的一行数据的一个列，也就是一个单元格添加一个数据，所以直接用shell命令插入数据效率很低，在实际应用中，一般都是利用编程操作数据。
a.当运行命令：put ‘student’,’95001’,’Sname’,’LiYing’时，即为student表添加了学号为95001，名字为LiYing的一行数据，其行键为95001。

b.当运行命令：put 'student','95001','course:math','80' 时，即为95001行下的course列族的math列添加了一个数据。

②删除数据
在HBase中用delete以及deleteall命令进行删除数据操作，它们的区别是：1. delete用于删除一个数据，是put的反向操作；2. deleteall操作用于删除一行数据。
a. delete命令
当运行命令： delete 'student','95001','Ssex'时，即删除了student表中95001行下的Ssex列的所有数据。

b. deleteall命令
当运行命令 deleteall 'student','95001'时，即删除了student表中的95001行的全部数据。

③查看数据
HBase中有两个用于查看数据的命令：
get命令，用于查看表的某一行数据； scan命令用于查看某个表的全部数据。
a. get命令
当运行命令get 'student','95001' 时，返回的是‘student’表‘95001’行的数据。

b. scan命令
当运行命令scan ‘student’ 时返回的是‘student’表的全部数据。

④删除表
删除表有两步，第一步先让该表不可用，第二步删除表。

3. 查询表历史数据

查询表的历史版本，需要两步。
a. 在创建表的时候，指定保存的版本数（假设指定为5）

b. 插入数据然后更新数据，使其产生历史版本数据，注意：这里插入数据和更新数据都是用put命令。

c. 查询时，指定查询的历史版本数。默认会查询出最新的数据。（有效取值为1到5）

4. 退出HBase数据库表操作

最后退出数据库操作，输入exit命令即可退出，注意：这里退出HBase数据库是退出对数据库表的操作，而不是停止启动HBase数据库后台运行。

（五）实现Hbase的Java编程，在eclipse中创建项目ExampleForHbase。

①启动Eclipse，启动以后，出现如下图所示界面，点击界面右下角的“Launch”按钮。

启动进入Eclipse以后的程序开发界面如下图所示。

②点击界面顶部的“File”菜单，在弹出的子菜单（如下图所示）中选择“New”，再选择子菜单中的“Java Project”。

这时会弹出一个Java工程创建对话框（如下图所示），在“Project name”文本框中输入“HBaseExample”，在“JRE”选项卡中选中第2项“Use a project specific JRE”，然后点击界面底部的“Next”按钮。

③在弹出的界面中（如下图所示），用鼠标点击“Libraries”选项卡，然后，点击界面右侧的“Add External JARs…”按钮。

④在弹出的“JAR Selection”界面中（如下图所示），进入到“/usr/local/hbase/lib”目录，选中该目录下的所有jar文件（注意，不要选中client-facing-thirdparty、ruby、shaded-clients和zkcli这四个目录），然后，点击界面底部的“OK”按钮。

⑤然后，在“JAR Selection”界面中（如下图所示），点击进入到“client-facing-thirdparty”目录下。

⑥在“client-facing-thirdparty”目录下（如下图所示），选中所有jar文件，再点击界面底部的“OK”按钮。

然后，再点击界面（如下图所示）底部的“Finish”按钮。

⑦在界面（如下图所示）左侧的“HBaseExample”工程名称上单击鼠标右键，在弹出的菜单中选择“New”，再在弹出的子菜单中选择“Class”。

在弹出的“New Java Class”对话框（如下图所示）中，在“Name”文本框中输入“ExampleForHBase”，然后，点击界面底部的“Finish”按钮。

⑧在代码窗口中（如下图所示），ExampleForHBase.java代码内容输入。

⑨在开始运行程序之前，需要启动HDFS和HBase。
然后，如下图所示，点击界面中的运行图标右侧的“倒三角”，在弹出的菜单中选择“Run As”，再在弹出的菜单中点击“1 Java Application”，开始运行程序。

⑩这时，可以到HBase Shell交互式环境中，使用如下命令查看student表是否创建成功：

再在HBase Shell交互式环境中，使用如下命令查看student表中的数据：

（六）Hbase和传统的关系型数据库相比，有哪些特点？

①数据类型：Hbase只有简单的数据类型，只保留字符串；传统数据库有丰富的数据类型。
②数据操作：Hbase只有简单的插入、查询、删除、清空等操作，表和表之间是分离的，没有复杂的表和表之间的关系；传统数据库通常有各式各样的函数和连接操作。
③存储模式：Hbase是基于列存储的，每个列族都由几个文件保存，不同列族的文件是分离的，这样的好处是数据即是索引，访问查询涉及的列大量降低系统的I/O，并且每一列由一个线索来处理，可以实现查询的并发处理；传统数据库是基于表格结构和行存储，其没有建立索引将耗费大量的I/O并且建立索引和物化试图需要耗费大量的时间和资源。
④数据维护：Hbase的更新实际上是插入了新的数据；传统数据库只是替换和修改。
⑤可伸缩性：Hbase可以轻松的增加或减少硬件的数目，并且对错误的兼容性比较高；传统数据库需要增加中间层才能实现这样的功能。
⑥事务：Hbase只可以实现单行的事务性，意味着行与行之间、表与表之前不必满足事务性；传统数据库是可以实现跨行的事务性。

（七）Hbase创建的应用程序，需要导入哪些安装包，这些安装包里面有什么功能？

①Hbase创建的应用程序，需要导入“/usr/local/hbase/lib”目录和“/usr/local/hbase/lib client-facing-thirdparty”目录下所有的jar包。
②安装包的功能：
a.用于发布和使用类库
b.作为应用程序和扩展的构建单元
c.作为组件、applet 或者插件程序的部署单位
d.用于打包与组件相关联的辅助资源