Docker 部署分布式 Hadoop（超详细实战版）

国内服务器3个月前发布 beixibaobao

Docker 部署分布式 Hadoop（超详细实战版）

一：背景
二：部署
- 1）创建基础镜像
- 2）创建 Hadoop
- 3）启动 Hadoop
- 4）保存镜像
总结

适合人群：大数据初学者、运维工程师、想在本地快速搭建 Hadoop 集群的同学

技术环境：CentOS 7 + Docker + Hadoop 2.7.2

架构模式：1 Master + 2 Slave 分布式集群

一：背景

在传统方式下部署 Hadoop：

需要准备多台虚拟机
手动配置网络、主机名、SSH 免密
重复安装 JDK、Hadoop
环境不可复用

而使用 Docker 的优势：

✅ 环境隔离
✅ 一台机器模拟多节点
✅ 可快速销毁重建
✅ 镜像可复用
✅ 非常适合学习与实验

在真实生产中，例如在基于 Apache Hadoop 的数据平台环境中，也常结合容器化与编排技术使用。

二：部署

1）创建基础镜像

查看系统版本

[root@hadoop108 ~]# uname -r
3.10.0-862.el7.x86_64

安装 Docker

[root@hadoop108 ~]# yum install -y docker

启动 Docker

[root@hadoop108 ~]# systemctl start docker

设置 Docker 开机自启

[root@hadoop108 ~]# systemctl enable docker

查看 Docker 状态

[root@hadoop108 ~]# systemctl status docker

配置 Docker 镜像加速器

[root@hadoop108 ~]# vim /etc/docker/daemon.json

{
"registry-mirrors": ["https://3iy7bctt.mirror.aliyuncs.com"]
}

[root@hadoop108 ~]# systemctl daemon-reload
[root@hadoop108 ~]# systemctl restart docker
[root@hadoop108 ~]# docker info

搜索并拉取 CentOS 镜像

[root@hadoop108 ~]# docker search centos
[root@hadoop108 ~]# docker pull centos:7

查看镜像列表
```
[root@hadoop108 ~]# docker images
```

运行 CentOS 容器（带特权模式，用于启动 systemd 服务）

[root@hadoop108 ~]# docker run --privileged=true --name centos7 -h hadoop -itd centos:7 /usr/sbin/init

查看运行中的容器
```
[root@hadoop108 ~]# docker ps
```

进入容器

[root@hadoop108 ~]# docker exec -it centos7 /bin/bash

在容器内安装必要工具

[root@hadoop ~]# yum install -y vim net-tools openssh-server openssh-clients rsync

配置 SSH 服务并启动

[root@hadoop ~]# vim /etc/ssh/sshd_config
Port 22
PermitRootLogin yes

[root@hadoop ~]# systemctl start sshd.service
[root@hadoop ~]# systemctl enable sshd.service
[root@hadoop ~]# systemctl status sshd.service

创建软件目录

[root@hadoop ~]# mkdir -p /opt/module /opt/software

退出容器并提交为新的镜像

[root@hadoop ~]# exit
[root@hadoop108 ~]# docker commit 容器ID centos:hadoop
[root@hadoop108 ~]# docker images

2）创建 Hadoop

基于新镜像启动 Master 和 Slave 容器

[root@hadoop108 ~]# docker run --privileged=true --name master -h master -p 50070:50070 -itd centos:hadoop /usr/sbin/init
[root@hadoop108 ~]# docker run --privileged=true --name slave01 -h slave01 -p 8088:8088 -itd centos:hadoop /usr/sbin/init
[root@hadoop108 ~]# docker run --privileged=true --name slave02 -h slave02 -itd centos:hadoop /usr/sbin/init

进入容器配置 hosts 文件（在每个容器中执行）

[root@master ~]# vim /etc/hosts
172.17.0.3 master
172.17.0.4 slave01
172.17.0.5 slave02

设置 root 密码

[root@master ~]# passwd root
[root@slave01 ~]# passwd root
[root@slave02 ~]# passwd root

配置 SSH 免密登录

[root@master ~]# ssh-keygen -t rsa
[root@master ~]# ssh-copy-id master
[root@master ~]# ssh-copy-id slave01
[root@master ~]# ssh-copy-id slavse02

从宿主机拷贝 Hadoop 和 JDK 安装包到容器

[root@hadoop108 ~]# docker cp jdk-8u144-linux-x64.tar.gz master:/opt/software
[root@hadoop108 ~]# docker cp hadoop-2.7.2.tar.gz master:/opt/software

安装 JDK

[root@master ~]# tar -xzvf /opt/software/jdk-8u144-linux-x64.tar.gz -C /opt/module/

[root@master ~]# vim /etc/profile
# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

[root@master ~]# source /etc/profile
[root@master ~]# java -version

安装 Hadoop

[root@master ~]# tar -xzvf /opt/software/hadoop-2.7.2.tar.gz -C /opt/module/

[root@master ~]# vim /etc/profile
# HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

[root@master ~]# source /etc/profile
[root@master ~]# hadoop version

配置 Hadoop 配置文件

[root@master ~]# cd /opt/module/hadoop-2.7.2/etc/hadoop

配置 core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-2.7.2/data/tmp</value>
  </property>
</configuration>

配置 hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置 hdfs-site.xml

<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>
<property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>slave02:50090</value>
</property>
<property>
  <name>dfs.permissions.enabled</name>
  <value>false</value>
</property>

配置 slaves 文件
```
master
slave01
slave02
```

配置 yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置 yarn-site.xml

<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>slave01</value>
</property>

配置 mapred-site.xml

[root@master hadoop]# mv mapred-site.xml.template mapred-site.xml

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

配置 mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

分发配置文件到 slave 节点

[root@master ~]# scp -r /opt/module/jdk1.8.0_144/ root@slave01:/opt/module/
[root@master ~]# scp -r /opt/module/jdk1.8.0_144/ root@slave02:/opt/module/
[root@master ~]# scp -r /opt/module/hadoop-2.7.2/ root@slave01:/opt/module/
[root@master ~]# scp -r /opt/module/hadoop-2.7.2/ root@slave02:/opt/modusle/

在 slave 节点配置环境变量（在 slave01 和 slave02 中执行）

[root@slave01 ~]# vim /etc/profile
# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
# HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

[root@slave01 ~]# source /etc/profile

3）启动 Hadoop

格式化 HDFS 并启动 Hadoop

在 master 节点执行：

[root@master ~]# hdfs namenode -format
[root@master ~]# start-dfs.sh

在 slave01 节点执行：
```
[root@slave01 ~]# start-yarn.sh
```

浏览器访问
- HDFS：http://宿主机IP:50070
- YARN：http://宿主机IP:8088

4）保存镜像

停止 Hadoop 集群

[root@slave01 ~]# stop-yarn.sh
[root@master ~]# stop-dfs.sh

将容器提交为镜像

[root@hadoop108 ~]# docker commit master centos:master
[root@hadoop108 ~]# docker commit slave01 centos:slave01
[root@hadoop108 ~]# docker commit slave02 centos:slave02

总结

本文完整演示了：

制作 Hadoop 基础镜像
构建三节点集群
配置 SSH 免密
配置 HDFS + YARN
启动并验证 Web UI
保存为可复用镜像

核心思想：

用 Docker 模拟分布式环境
用容器复刻真实大数据架构

对于正在做大数据方向学习或毕业设计的同学，这种方式可以极大降低实验成本。

国内服务器

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

个人笔记：星环Inceptor/hive普通分区表与范围分区表核心技术总结

个人笔记：星环Inceptor/hive普通分区表与范围分区表核心技术总结

国内服务器

2个月前

190

Hive核心知识：从基础到实战全解析

Hive核心知识：从基础到实战全解析

国内服务器

3个月前

420

Agentic AI 全流程实战：用 OpenAI on AWS 搭一个餐饮补货智能体，从 API 调用到容器化上线

Agentic AI 全流程实战：用 OpenAI on AWS 搭一个餐饮补货智能体，从 API 调用到容器化上线

国内服务器

2个月前

190

大数据领域实时分析的算法优化策略

大数据领域实时分析的算法优化策略

国内服务器

3个月前

260