Hadoop的运行模式
Hadoop官方网站
Hadoop运行模式
-
本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。
-
伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。
-
完全分布式模式:多台服务器组成分布式环境。生产环境使用。
本地运行模式(官方 WordCount)
-
创建在hadoop-3.1.3文件下面创建一个wcinput文件夹
[root@hadoop102 hadoop-3.1.3]$ mkdir wcinput
-
在wcinput文件下创建一个word.txt文件
[root@hadoop102 hadoop-3.1.3]$ cd wcinput
-
编辑word.txt文件
[root@hadoop102 wcinput]$ vim word.txt
hadoop
yarn
hadoop
mapreduce
atguigu
atguigu
-
回到 Hadoop 目录/opt/module/hadoop-3.1.3
-
执行程序
[root@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
-
查看结果
[root@hadoop102 hadoop-3.1.3]$ cat wcoutput/part-r-00000
看到如下结果:
atguigu 2
hadoop 2
mapreduce 1
yarn 1
伪分布式模式
完全分布式模式(开发重点)
-
准备3台客户机(关闭防火墙、静态IP、主机名称)
-
安装JDK
-
配置环境变量
-
安装Hadoop
-
配置环境变量
-
配置集群
-
单点启动
-
配置ssh
-
群起并测试集群
虚拟机准备
编写集群分发脚本xsync
1、scp(secure copy)安全拷贝
-
定义
scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)
-
基本语法
scp -r $pdir/$fname $user@$host:$pdir/$fname
命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
scp -r $pdir/$fname $user@$host:$pdir/$fname
-
实操
-
前提:在 hadoop102、hadoop103、hadoop104 都已经创建好的/opt/module、 /opt/software 两个目录
-
在hadoop102上,将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。
[root@hadoop102 ~]$ scp -r /opt/module/jdk1.8.0_212 root@hadoop103:/opt/module
-
在hadoop103上,将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。
[root@hadoop103 ~]$ scp -r root@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/
-
在hadoop103上操作,将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。
[root@hadoop103 opt]$ scp -r root@hadoop102:/opt/module/* root@hadoop104:/opt/module
-
2、rsync远程同步工具
-
定义
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
-
rsync和scp区别:
用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。
-
基本语法
rsync -av $pdir/$fname $user@$host:$pdir/$fname
命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
rsync -av pdir/fname user @user@host:pdir/fname
选线参数说明
选项 功能 -a 归档拷贝 -v 显示复制过程 -
实操
-
删除hadoop103中/opt/module/hadoop-3.1.3/wcinput
[root@hadoop103 hadoop-3.1.3]$ rm -rf wcinput/
-
同步hadoop102中的/opt/module/hadoop-3.1.3到hadoop103
[root@hadoop102 module]$ rsync -av hadoop-3.1.3/ root@hadoop103:/opt/module/hadoop-3.1.3/
-
3、xsync集群分发脚本
-
需求:循环复制文件到所有节点的相同目录下
-
在/home/bin目录下创建xsync文件
[root@hadoop102 opt]$ cd /home/atguigu
[root@hadoop102 ~]$ mkdir bin
[root@hadoop102 ~]$ cd bin
[root@hadoop102 bin]$ vim xsync -
在该文件编写代码
-
修改脚本xsync的权限
[root@hadoop102 bin]$ chmod 777(+x) xsync
-
测试脚本
[atguigu@hadoop102 ~]$ xsync /home/atguigu/bin
-
将脚本复制到/bin中,以便全局调用
[root@hadoop102 bin]$ sudo cp xsync /bin/
-
同步环境变量配置(root所有者)
[root@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh
SSH免密登录
配置ssh
-
基本语法
ssh 另一台电脑的 IP 地址
-
ssh 连接时出现 Host key verification failed 的解决方法
[atguigu@hadoop102 ~]$ ssh hadoop103
-
如果出现如下内容
Are you sure you want to continue connecting (yes/no)?
-
输入 yes,并回车
-
-
退回到 hadoop102
[atguigu@hadoop103 ~]$ exit
-
查看sshd的状态:
systemctl status sshd
无密钥配置
免密登录原理
时间服务器配置(必须 root 用户)
-
查看所有节点 ntpd 服务状态和开机自启动状态
[atguigu@hadoop102 ~]$ sudo systemctl status ntpd [atguigu@hadoop102 ~]$ sudo systemctl start ntpd [atguigu@hadoop102 ~]$ sudo systemctl is-enabled ntpd
-
修改 hadoop102 的 ntp.conf 配置文件
[atguigu@hadoop102 ~]$ sudo vim /etc/ntp.conf
修改内容
-
修改 1(授权 192.168.10.0-192.168.10.255 网段上的所有机器可以从这台机器上查 询和同步时间)
#restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
为
restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap -
修改 2(集群在局域网中,不使用其他互联网上的时间)
server 0.centos.pool.ntp.org iburst server 1.centos.pool.ntp.org iburst server 2.centos.pool.ntp.org iburst server 3.centos.pool.ntp.org iburst
为
#server 0.centos.pool.ntp.org iburst #server 1.centos.pool.ntp.org iburst #server 2.centos.pool.ntp.org iburst #server 3.centos.pool.ntp.org iburst -
添加 3(当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群 中的其他节点提供时间同步)
server 127.127.1.0
fudge 127.127.1.0 stratum 10
-
-
修改 hadoop102 的/etc/sysconfig/ntpd 文件
[atguigu@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd
增加内容如下(让硬件时间与系统时间一起同步)
SYNC_HWCLOCK=yes
-
重新启动 ntpd 服务
[atguigu@hadoop102 ~]$ sudo systemctl start ntpd
-
设置 ntpd 服务开机启动
[atguigu@hadoop102 ~]$ sudo systemctl enable ntpd
其他机器配置(必须 root 用户)
-
关闭所有节点上 ntp 服务和自启动
[atguigu@hadoop103 ~]$ sudo systemctl stop ntpd
[atguigu@hadoop103 ~]$ sudo systemctl disable ntpd
[atguigu@hadoop104 ~]$ sudo systemctl stop ntpd
[atguigu@hadoop104 ~]$ sudo systemctl disable ntpd -
在其他机器配置 1 分钟与时间服务器同步一次
[atguigu@hadoop103 ~]$ sudo crontab -e
编写定时任务如下:
*/1 * * * * /usr/sbin/ntpdate hadoop102
-
修改任意机器时间
[atguigu@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"
-
1 分钟后查看机器是否与时间服务器同步
[atguigu@hadoop103 ~]$ sudo date