Hadoop集群搭建部署


Hadoop基础

简介

  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它可以充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Distributed File System),其中的一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(Low Cost)硬件上,而且它提供高吞吐量(High Throughput)来访问应用程序的数据,适合那些有着超大数据集(Large Data Set)的应用程序。HDFS放宽了(Relax)POSIX的要求,可以以流的形式访问(Streaming Access)文件系统中的数据。
  Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

架构图

HDFS

HDFS

MapReduce

MapReduce

Yarn

Yarn

Hadoop集群搭建

架设Bridge网络及集群部署

作者已在DockerHub上构建集成 JDK1.8&&Hadoop3.2.0 的镜像:caoofduty/hadoop-base 开箱即用~~

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 拉取镜像
docker pull caoofduty/hadoop-base:latest
# 搭建网络
docker network create --subnet=172.8.0.0/16 hadoopnetwork
# 集群战术部署
docker run -itd --name hadoop2 --net hadoopnetwork --ip 172.8.0.2 --add-host hadoop2:172.8.0.2 --add-host hadoop3:172.8.0.3 --add-host hadoop4:172.8.0.4 -d -p 8088:8088 -p 9000:9000 -p 50070:50070 -p 9001:9001 -p 8030:8030 -p 8031:8031 -p 8032:8032 -p 8033:8033 -p 10020:10020 -p 19888:19888 caoofduty/hadoop-base:latest /bin/bash
docker run -itd --name hadoop3 --net hadoopnetwork --ip 172.8.0.3 --add-host hadoop2:172.8.0.2 --add-host hadoop3:172.8.0.3 --add-host hadoop4:172.8.0.4 -d -P caoofduty/hadoop-base:latest /bin/bash
docker run -itd --name hadoop4 --net hadoopnetwork --ip 172.8.0.4 --add-host hadoop2:172.8.0.2 --add-host hadoop3:172.8.0.3 --add-host hadoop4:172.8.0.4 -d -P caoofduty/hadoop-base:latest /bin/bash
# 开启容器的SSH
docker exec -d hadoop2 /usr/sbin/sshd
docker exec -d hadoop3 /usr/sbin/sshd
docker exec -d hadoop4 /usr/sbin/sshd
# 进入Master容器-刷新环境变量
source /etc/profile
# 进入Master容器-启动集群
/usr/local/hadoop/sbin/start-all.sh
# 该镜像已集成后续的核心配置项,无需调整-开箱即用。
# 访问后台查看节点状态: http://localhost:8088/cluster

附:含SSH功能的Centos系统

作者已在DockerHub上构建好包含SSH服务的Linux镜像:caoofduty/centos-ssh 开箱即用哦~~
说明:此镜像可以视为一个可快速部署的Linux基本盘。

1
2
3
4
5
6
7
8
9
10
11
# 拉取镜像
docker pull caoofduty/centos-ssh
# 启动容器
docker run -itd --name centos-ssh caoofduty/centos-ssh /bin/bash
#查看ssh服务是否已开启
netstat -antp | grep sshd
# 开启SSH服务
/usr/sbin/sshd
# 设置免密登录
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Hadoop核心配置

core-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
# 配置文件:core-site.xml
# 配置用途:Hadoop Core的配置项,例如HDFS和MapReduce常用的I/O设置等。
# 配置详情:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop2/</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
</configuration>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
# 配置文件:hdfs-site.xml
# 配置用途:HDFS功能配置等。
# 配置详情:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop2:9001</value>
<description># 通过web界面来查看HDFS状态 </description>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
<description># 每个Block有2个备份</description>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

mapred-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
# 配置文件:mapred-site.xml
# 配置用途:MapReduce配置相关。
# 配置详情:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->


<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop2:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop2:19888</value>
</property>
</configuration>

yarn-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
# 配置文件:yarn-site.xml
# 配置用途:yarn配置相关。
# 配置详情:
<?xml version="1.0"?>
<!--
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hadoop2:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoop2:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hadoop2:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoop2:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hadoop2:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>1</value>
</property>
</configuration>

环境变量

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 配置Hadoop的相关JAVA环境变量
vi /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8

vi /usr/local/hadoop/etc/hadoop/mapred-env.sh
export JAVA_HOME=/usr/local/jdk1.8

vi /usr/local/hadoop/etc/hadoop/yarn-env.sh
export JAVA_HOME=/usr/local/jdk1.8

# 同步命令(场景:以当前hadoop2为主,向hadoop3同步数据)
scp -rq /usr/local/hadoop hadoop3:/usr/local

# 初次运行-进入容器-对HDFS进行初始化
/usr/local/hadoop/bin/hdfs namenode -format

可能遇到的问题

scp–lost connection

1
2
3
4
5
6
7
8
9
10
11
12
# scp命令传输报错丢链接(PING主机可正常通信的情况)
# 编辑ip登录白名单
vi /etc/hosts.allow
# 添加ip
sshd:172.8.0.2
sshd:172.8.0.3
sshd:172.8.0.4
# 重启sshd服务
service sshd restart
# 查看服务启动状态
service sshd status
# 注意:不同的服务器都要设置哦,如Hadoop2传输到Hadoop3,两台都需要。

集群启动

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 启动报错
Starting namenodes on [hadoop2]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes [hadoop2]
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.
2021-09-25 08:16:02,231 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Starting resourcemanager
ERROR: Attempting to operate on yarn resourcemanager as root
ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation.
Starting nodemanagers
ERROR: Attempting to operate on yarn nodemanager as root
ERROR: but there is no YARN_NODEMANAGER_USER defined. Aborting operation.

解决:

1
2
3
4
5
6
7
8
9
10
# 编辑配置
vi /etc/profile
# 添加内容
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
# 立即生效
source /etc/profile

Hadoop知识点补充与总结

Hadoop集群运行所需进程

NameNode

  它是hadoop中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问,保存有metadate。

SecondaryNameNode

  它不是namenode的冗余守护进程,而是提供周期检查点和清理任务。帮助NN合并editslog,减少NN启动时间。

DataNode

  它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一个datanode守护进程。

ResourceManager

  JobTracker负责调度DataNode上的工作。每个DataNode有一个TaskTracker,它们执行实际工作。

NodeManager

  执行任务

DFSZKFailoverController

  高可用时它负责监控NN的状态,并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个特定接口来获 取NN的健康状态。FC也有选择谁作为Active NN的权利,因为最多只有两个节点,目前选择策略还比较简单(先到先得,轮换)。

JournalNode

  高可用情况下存放namenode的editlog文件。

部署方式

单机版

  无需任何守护进程,所有的程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效方便。所以一般该模式主要是在学习或者开发阶段调试使用。

伪分布式

  Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。

完全分布式

  Hadoop守护进程运行在一个集群上。

特点

优点:

支持超大文件:

  HDFS存储的文件可以支持TB和PB级别的数据。在不保证低延时的前提下,具有相当大的吞吐量,非常适合海量数据的运算。

可靠性:

  hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。

高扩展&&成本低:

  可建构在廉价机上,实现线性(横向)扩展,当集群增加新节点之后,NameNode也可以感知,将数据分发和备份到相应的节点上。

成熟的生态圈:

  借助开源的力量,围绕Hadoop衍生的一些小工具。

高效率:

  通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。

缺点:

不能做到低延迟:

  既然是海量数据的处理,优先考虑的是该系统的吞吐量等性能问题。所以也很难满足平常的低时延的需求,这点是不可避免的,只能说想办法尽量去权衡两者,进而优化。

不适合大量的小文件存储:

  该框架设计的初衷是针对海量数据的运算处理的问题。因此对于一些数据量很小的处理没有任何优势可言,甚至还不如单机串行的效果,性能也完全体现不出来。

文件修改效率低:

  其文件系统设计的前提是一次写入多次读取的情况,因此我们是无法修改某条详细的数据,只能overwrite全部的数据,或者是在文件末尾追加数据。

开源项目:

  开源本身是一柄双刃剑,它方便了大多数人,但是对于一个有一定规模的公司,项目发展方向的把握,技术保密和支持等都是采用Hadoop这种开源项目必须考虑的问题。

网络瓶颈:

  集群内部是通过tcp/ip协议进行通信的,所以网络带宽也会成为系统的瓶颈之一。