Hadoop的运行模式

2023-05-08 19:51 由 H-YONG-8 发表于 #数据库

Hadoop官方网站

http://hadoop.apache.org/

Hadoop运行模式

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
完全分布式模式：多台服务器组成分布式环境。生产环境使用。

本地运行模式（官方 WordCount）

创建在hadoop-3.1.3文件下面创建一个wcinput文件夹

 [root@hadoop102 hadoop-3.1.3]$ mkdir wcinput

在wcinput文件下创建一个word.txt文件

 [root@hadoop102 hadoop-3.1.3]$ cd wcinput

编辑word.txt文件

 [root@hadoop102 wcinput]$ vim word.txt

 hadoop
 yarn
 hadoop 
 mapreduce
 atguigu 
 atguigu

回到 Hadoop 目录/opt/module/hadoop-3.1.3
执行程序

 [root@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput

查看结果

 [root@hadoop102 hadoop-3.1.3]$ cat wcoutput/part-r-00000 
 
 看到如下结果： 
 
 atguigu 2 
 hadoop  2
 mapreduce    1
 yarn   1

伪分布式模式

完全分布式模式（开发重点）

准备3台客户机（关闭防火墙、静态IP、主机名称）
安装JDK
配置环境变量
安装Hadoop
配置环境变量
配置集群
单点启动
配置ssh
群起并测试集群

虚拟机准备

编写集群分发脚本xsync

1、scp（secure copy）安全拷贝

定义

scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）
基本语法

scp -r $pdir/$fname $user@$host:$pdir/$fname

命令递归要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称
```
 scp  -r     $pdir/$fname       $user@$host:$pdir/$fname
```
实操
- 前提：在 hadoop102、hadoop103、hadoop104 都已经创建好的/opt/module、 /opt/software 两个目录
- 在hadoop102上，将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。
```
 [root@hadoop102 ~]$ scp -r /opt/module/jdk1.8.0_212 root@hadoop103:/opt/module
```
- 在hadoop103上，将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。
```
 [root@hadoop103 ~]$ scp -r root@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/ 
```
- 在hadoop103上操作，将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。
```
 [root@hadoop103 opt]$ scp -r root@hadoop102:/opt/module/* root@hadoop104:/opt/module 
```

2、rsync远程同步工具

定义

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：

用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。
基本语法

rsync -av $pdir/$fname $user@$host:$pdir/$fname

命令选项参数要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称
```
 rsync -av pdir/fname user @user@host:pdir/fname
```
选线参数说明

选项功能

-a 归档拷贝

-v 显示复制过程

选项	功能
-a	归档拷贝
-v	显示复制过程

实操

删除hadoop103中/opt/module/hadoop-3.1.3/wcinput

 [root@hadoop103 hadoop-3.1.3]$ rm -rf wcinput/

同步hadoop102中的/opt/module/hadoop-3.1.3到hadoop103

 [root@hadoop102 module]$ rsync -av hadoop-3.1.3/ root@hadoop103:/opt/module/hadoop-3.1.3/

3、xsync集群分发脚本

在/home/bin目录下创建xsync文件

 [root@hadoop102 opt]$ cd /home/atguigu
 
 [root@hadoop102 ~]$ mkdir bin
 
 [root@hadoop102 ~]$ cd bin
 
 [root@hadoop102 bin]$ vim xsync

在该文件编写代码

 #!/bin/bash
 #1.判断参数个数
 if [ $# -lt 1 ]
 then
 echo Not Enough Arguement!
 exit;
 fi
 #2.遍历集群所有机器
 for host in hadoop102 hadoop103 hadoop104
 do
 echo ================$host============
 #3.遍历所有目录。挨个发送
 for file in $@
 do
 #4.判断文件是否存在
 if [ -e $file ]
 then
 #5.获取父目录
 pdir=$(cd -P $(dirname $file); pwd)
 #6.获取当前文件的名称
 fname=$(basename $file)
 ssh $host "mkdir -p $pdir"
 rsync -av $pdir/$fname $host:$pdir
 else
 echo $file does not exists!
 fi
 done
 done

修改脚本xsync的权限

 [root@hadoop102 bin]$ chmod 777(+x) xsync

测试脚本

 [atguigu@hadoop102 ~]$ xsync /home/atguigu/bin

将脚本复制到/bin中，以便全局调用
```
 [root@hadoop102 bin]$ sudo cp xsync /bin/
```

同步环境变量配置（root所有者）

 [root@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh

SSH免密登录

配置ssh

基本语法

ssh 另一台电脑的 IP 地址
ssh 连接时出现 Host key verification failed 的解决方法
```
 [atguigu@hadoop102 ~]$ ssh hadoop103 
```

如果出现如下内容

 Are you sure you want to continue connecting (yes/no)?

输入 yes，并回车

退回到 hadoop102

  [atguigu@hadoop103 ~]$ exit

查看sshd的状态：

 systemctl status sshd

无密钥配置

免密登录原理

时间服务器配置（必须 root 用户）

查看所有节点 ntpd 服务状态和开机自启动状态

 [atguigu@hadoop102 ~]$ sudo systemctl status ntpd [atguigu@hadoop102 ~]$ sudo systemctl start ntpd [atguigu@hadoop102 ~]$ sudo systemctl is-enabled ntpd

修改 hadoop102 的 ntp.conf 配置文件

 [atguigu@hadoop102 ~]$ sudo vim /etc/ntp.conf

修改内容

修改 1（授权 192.168.10.0-192.168.10.255 网段上的所有机器可以从这台机器上查询和同步时间）

 #restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
 为 
 restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

修改 2（集群在局域网中，不使用其他互联网上的时间）

 server 0.centos.pool.ntp.org iburst server 1.centos.pool.ntp.org iburst server 2.centos.pool.ntp.org iburst server 3.centos.pool.ntp.org iburst 
 为
 #server 0.centos.pool.ntp.org iburst #server 1.centos.pool.ntp.org iburst #server 2.centos.pool.ntp.org iburst #server 3.centos.pool.ntp.org iburst

添加 3（当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）
```
 server 127.127.1.0 
 
 fudge 127.127.1.0 stratum 10 
```

修改 hadoop102 的/etc/sysconfig/ntpd 文件
```
 [atguigu@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd
```
增加内容如下（让硬件时间与系统时间一起同步）
```
 SYNC_HWCLOCK=yes
```

重新启动 ntpd 服务

 [atguigu@hadoop102 ~]$ sudo systemctl start ntpd

设置 ntpd 服务开机启动

 [atguigu@hadoop102 ~]$ sudo systemctl enable ntpd

其他机器配置（必须 root 用户）

关闭所有节点上 ntp 服务和自启动

 [atguigu@hadoop103 ~]$ sudo systemctl stop ntpd
 [atguigu@hadoop103 ~]$ sudo systemctl disable ntpd
 [atguigu@hadoop104 ~]$ sudo systemctl stop ntpd
 [atguigu@hadoop104 ~]$ sudo systemctl disable ntpd

在其他机器配置 1 分钟与时间服务器同步一次

 [atguigu@hadoop103 ~]$ sudo crontab -e

编写定时任务如下：

  */1 * * * * /usr/sbin/ntpdate hadoop102

修改任意机器时间

 [atguigu@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"

1 分钟后查看机器是否与时间服务器同步
```
 [atguigu@hadoop103 ~]$ sudo date
```