Hadoop环境配置(Linux虚拟机)

Hadoop环境配置(Linux虚拟机)本学期选了大数据管理与分析这门课，主要使用Hadoop框架下进行数据分析与应用开发，在此先进行环境配置注意最好把JDK以及Hadoop 放在/usr/local下添加环境变量的时候可以加到/etc/profile或者按照该链接 w3cshcool的教材进行配置(强烈推荐)环境要求单机Hadoop的安装安装JDK链接https://www.oracle.c

Tcoder-l3est

5322人浏览 · 2022-02-28 18:51:39

Tcoder-l3est · 2022-02-28 18:51:39 发布

Hadoop环境配置(Linux虚拟机)

本学期选了大数据管理与分析这门课，主要使用Hadoop框架下进行数据分析与应用开发，在此先进行环境配置

注意

最好把JDK以及Hadoop 放在/usr/local下
添加环境变量的时候可以加到/etc/profile

或者按照该链接 w3cshcool的教材进行配置(强烈推荐)

环境要求

单机Hadoop的安装

安装JDK

链接

https://www.oracle.com/java/technologies/javase-java-archive-javase6-downloads.html

然后

sudo nautilus
会打开一个有权限的文件夹

推荐下载 .bin文件而非 rpm.bin

然后安装

./jdk-6u23-linux-x64.bin

配置JDK

用vim或vi 打开/etc/profile 文件

vim /etc/profile

点击键盘 i 进行编辑；

将下面内容粘贴到末尾；

export JAVA_HOME=/home/java/jdk1.6.0_23
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

然后esc

然后输入

:w  
:q

保存退出然后输入

source /etc/profile

最后验证

java -version

下载安装Hadoop

网址:

https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.tar.gz

下载并解压

然后测试是否可用

./bin/hadoop version   #  查看hadoop版本信息

经过俩小时的DeBug 终于可以了

换了JDK版本为jdk1.8.0_171
然后记住改完 /etc/profile 之后一定要 source /etc/profile

两种角色下都要source 然后就行了~
别忘了修改这个.sh文件

然后就能够Hadoop 正常显示版本号了

配置SSH

为了保证远程管理Hadoop节点以及Hadoop 节点之间用户共享访问时的安全性，需要配置SSH(安全外壳协议)。

在单机模式下无需守护进程，因此不需要进行SSH设置。但是在单机伪分布或者集群分布下需要进行SSH设置

~~所以暂时先跳~~

配置Hadoop环境

就是改java_home那个上文已经说了
Hadoop的配置文件时conf/core-site.xml cof/hdfs-site.xml 以及 conf/mapred-site.xml

其中core-site.xml时全局配置文件，后面分别是HDFS的配置文件以及MapReduce的配置文件。

需要修改core-site.xml 以及 hdfs-site.xml

core-site代码如下

<configuration>
 		<property>
             <name>hadoop.tmp.dir</name>
             <value>file:/root/hadoop-2.10.0/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://localhost:9000</value>
        </property>
</configuration>

hdfs-site 如下

<configuration>
        <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/root/hadoop-2.10.0/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/root/hadoop-2.10.0/tmp/dfs/data</value>
        </property>
</configuration>

效果如下自行修改 file 即 hadoop-2.10.0的文件地址其他不需要改

Hadoop的运行

初始化节点
```
./bin/hdfs namenode -format
```
如果出现，即说明成功，否则可能原因见地址
继续输入 ./sbin/start-dfs.sh
发现要你输入密码(貌似不行，但是不知道为啥)

所以需要进行SSH配置

sudo apt-get update  #第一步
sudo apt-get install ssh  #第二步
sudo apt-get install pdsh  #第三

生成密钥对

ssh-keygen -t rsa # 然后一路enter
# 就会按照默认保存在.ssh/id_rsa文件中

# 先进入.ssh 目录 然后
cp id_rsa.pub authorized_keys
# 再继续
ssh localhost

结果

最后

分别

start-dfs.sh 
start-yarn.sh

即可完成验证、登录
然后

# 访问Hadoop的默认端口号为50070.使用以下URL在浏览器上获取Hadoop服务。
http://localhost:50070/ 
# 访问群集的所有应用程序的默认端口号为8088.使用以下URL访问此服务。
http://localhost:8088/

在这里插入图片描述

部分问题

这种是说明启动Hadoop的时候已有Hadoop节点在运行，所以在启动之前你需要在重新启动hadoop之前要先stop掉所有的hadoop服务。然后恢复正常启动。

启动Hadoop的时候已有Hadoop节点在运行，所以在启动之前你需要在重新启动hadoop之前要先stop掉所有的hadoop服务。然后恢复正常启动。

解决

stop-all.sh

然后重启

注意这里输入
```
./sbin/start-all.sh
```
https://www.w3cschool.cn/hadoop/hadoop_enviornment_setup.html