实验目的:运行的虚拟机可以在线平滑迁移,不会终端虚拟机运行的业务
高可用架构:pacemaker+corosync 并由pcs进行管理
系统环境:三台机器都是最新的centos7.4
所需组件:
DLM,gfs2,clvm,pcs,pacemeker,corosync,libvirtd,qemu,qemu-img
约束关系:DLM >> CLVM >> GFS2文件系统 >> VirtualDomain

基于ISCSI共享存储的KVM高可用群集配置基于ISCSI共享存储的KVM高可用群集配置

kvm宿主节点软件安装

#虚拟化软件安装
yum groups install -y "Virtualization Platform " 
yum groups install -y "Virtualization Hypervisor "
yum groups install -y "Virtualization Tools "
yum groups install -y "Virtualization Client "

#群集及配套软件安装
yum install bash-completion ntpdate tigervnc-server iscsi-initiator-utils -y
yum install pacemaker corosync pcs psmisc policycoreutils-python fence-agents-all -y
yum install dlm lvm2-cluster gfs2-utils -y

#升级标准的kvm组件为ev版本(可选)
yum install centos-release-qemu-ev -y
yum install qemu-kvm-ev -y		#经测试,安装它后,创建虚拟机时会卡住

#或则运行下面这条命令,一步到位
yum groups install -y "Virtualization Platform "  && yum groups install -y "Virtualization Hypervisor " && yum groups install -y "Virtualization Tools " yum groups install -y "Virtualization Client " && yum install centos-release-qemu-ev tigervnc-server iscsi-initiator-utils vim pacemaker corosync pcs psmisc policycoreutils-python fence-agents-all dlm lvm2-cluster gfs2-utils  bash-completion -y && yum update -y && reboot

准备阶段:(kvm各个节点都需进行)

1:hosts文件(vi /etc/hosts)
192.168.1.31	kvm-pt1
192.168.1.32	kvm-pt2
172.168.1.33	san
10.0.0.31	node1
10.0.0.32	node2

2:ssh key互信
ssh-keygen -t rsa -P ''
ssh-copy-id -i ~/.ssh/id_rsa.pub root@node1	#到自己免密码
ssh-copy-id -i ~/.ssh/id_rsa.pub root@node2	#到node2免密码(双向)

3:时区
cp -f /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

4:定时时间同步
yum install ntpdate -y
crontab -e
*/30 * * * * /usr/sbin/ntpdate time.windows.com &> /dev/null

5:防火墙
firewall-cmd --permanent --add-service=high-availability
firewall-cmd --zone=trusted --add-source=10.0.0.0/24 --permanent
firewall-cmd --zone=trusted --add-source=192.168.1.0/24 --permanent
firewall-cmd --zone=trusted --add-source=172.168.1.0/24 --permanent
firewall-cmd --reload

6:所有kvm宿主节点创建相关目录
mkdir /kvm-hosts

第一:配置pcs守护程序

systemctl start pcsd
systemctl enable pcsd
systemctl status pcsd.service	#查看状态

echo "7845" | passwd --stdin hacluster
pcs cluster auth node1 node2 -u hacluster -p 7845
pcs cluster setup --name kvm-ha-cluster node1 node2	#创建名为kvm-ha-cluster的群集,后面gfs2需要再次用到
pcs cluster start --all
pcs cluster enable --all	#开机自动启动所有群集节点  (在生产环境中不要将群集设为开机自启动)

第二:配置存储节点san,并挂载iscsi设备

linux-io做的(共享了两块磁盘sdb,sdc)(配置过程见博客)https://boke.wsfnk.com/archives/345.html

sdb(42g):独立磁盘,用于创建了基于群集的lvm用于虚拟机存放,
sdc(1M):内存分配而来,用作STONITH		#这里用disk作为STONITH设备,当然可以用其他的比如,ilo3,ipmi等等

#将各个kvm的iscsi名字修改为通俗有意义的(每个kvm宿主节点都需进行)
[root@kvm-pt1 ~]# cat /etc/iscsi/initiatorname.iscsi 
InitiatorName=iqn.1994-05.com.redhat:node1

#发现挂载
iscsiadm --mode discovery --type sendtargets --portal 1172.168.1.33
iscsiadm -m node -L all

第三:配置STONITH隔离设备, DLM分布式锁 和 gfs2文件系统

#配置SONITH隔离设备(磁盘)任意节点(sdb用做存储,sdc用做stonith隔离设备)

[root@kvm-pt1 ~]# ll /dev/disk/by-id/ |grep sd
lrwxrwxrwx. 1 root root 10 11月 28 15:24 lvm-pv-uuid-wOhqpz-ze94-64Rc-U2ME-STdU-4NUz-AOJ5B3 -> ../../sda2
lrwxrwxrwx. 1 root root  9 11月 28 15:25 scsi-360014053b477d3fba5a4039a52358f0f -> ../../sdb
lrwxrwxrwx. 1 root root  9 11月 28 15:25 scsi-36001405419b8568d022462c9c17adca4 -> ../../sdc
lrwxrwxrwx. 1 root root  9 11月 28 15:25 wwn-0x60014053b477d3fba5a4039a52358f0f -> ../../sdb
lrwxrwxrwx. 1 root root  9 11月 28 15:25 wwn-0x6001405419b8568d022462c9c17adca4 -> ../../sdc

#注意:这里使用wwn号,不使用scsi开头的那个号
pcs stonith create scsi-shooter fence_scsi pcmk_host_list="node1 node2" devices="/dev/disk/by-id/wwn-0x6001405419b8568d022462c9c17adca4" meta provides=unfencing

#配置分布式锁DLM(任意节点)

方法一:
pcs cluster cib dlm_cfg
pcs -f dlm_cfg resource create dlm ocf:pacemaker:controld op monitor interval=60s 
pcs -f dlm_cfg resource clone dlm clone-max=2 clone-node-max=1
pcs cluster cib-push dlm_cfg

方法二:(一步到位)
pcs resource create dlm ocf:pacemaker:controld op monitor interval=30s on-fail=fence clone interleave=true ordered=true

#配置clvm(所有kvm节点)
lvmconf --enable-cluster
reboot

第四:向群集中添加clvm资源

#添加克隆的资源,即在每个node节点上运行clvmd
pcs resource create clvmd ocf:heartbeat:clvm op monitor interval=30s on-fail=fence clone interleave=true ordered=true
pcs status

#配置约束(clvmd必须在dlm启动后启动,而且必须在同一节点上)
pcs constraint order start dlm-clone then clvmd-clone
pcs constraint colocation add clvmd-clone with dlm-clone

#查看clvmd是否启动(是否有clvmd线程),ok的
systemctl status pacemaker

#查看约束
pcs constraint

第五:在群集中创建lvm,并挂载gfs2文件系统

#将发现并登录的iscsi设备中sdb,分一个区,并指定为8e类型
fdisk /dev/sdb
partprobe ; multipath -r	#多路径软件reload一下(此处没有设置多路径)
pvcreate /dev/sdb1
vgcreate vmvg0 /dev/sdb1
vgs
lvcreate -n lvvm0 -l 100%FREE vmvg0	#这里无法执行100%,这里设置为lvcreate -n lvvm0 -L 38G vmvg0

#创建GFS2文件系统
mkfs.gfs2 -p lock_dlm -j 2 -t kvm-ha-cluster:kvm /dev/vmvg0/lvvm0		#-t 前面是群集名称后面是自定义

#向群集中添加GFS2文件系统
##添加克隆资源,即在每个节点上均挂载文件系统
pcs resource create VMFS Filesystem device="/dev/vmvg0/lvvm0" directory="/kvm-hosts" fstype="gfs2" clone

#查看所有节点是否已经将lvvm0挂载到/kvm-hosts目录下了	结果:ok状态
#并同时测试读写是否可以,并查看各节点数据是否同步		结果:ok

第六:配置约束及selinux

pcs constraint order clvmd-clone then VMFS-clone
pcs constraint colocation add VMFS-clone with clvmd-clone

#再次查看一下约束
pcs constraint 

#配置SELINUX(不然虚拟机无法访问存储文件)(所有节点都要做)
semanage fcontext -a -t virt_image_t "/kvm-hosts(/.*)?"

#如果没有semanage,可以如下安装
yum install policycoreutils-python
restorecon -R -v /kvm-hosts

第七:创建虚拟机

#单点创建虚拟机
qemu-img create -f qcow2 /kvm-hosts/web01.qcow2 10G
virt-install --name web01 --virt-type kvm --ram 1024 --cdrom=/kvm-hosts/CentOS-7-x86_64-DVD-1611.iso --disk path=/kvm-hosts/web01.qcow2 --network network=default --graphics vnc,listen=0.0.0.0 --noautoconsole --os-type=linux --os-variant=rhel7

#配置第三方管理机能用virtual-manage连接并显示kvm-pt上的虚拟机(所有node节点都要)
firewall-cmd --permanent --add-service=vnc-server
firewall-cmd --reload
	
#配置防火墙(所有kvm节点)
firewall-cmd --permanent --add-port=16509/tcp	#这是virsh -c qemu+tcp://node2/system 模式,这里不会用到,但还是放行
firewall-cmd --permanent --add-port=49152-49215/tcp	#迁移端口
firewall-cmd --reload

#创建前:要进行迁移测试(virt-manage和命令行)	结果:都ok,都能平滑迁移
virsh migrate web01 qemu+ssh://root@node2/system --live --unsafe --persistent --undefinesource

#导出xml文件
virsh dumpxml web01 > /kvm-hosts/web01.xml
virsh undefine web01

#创建虚拟机(虚拟机的磁盘文件和xml配置文件都要放在共享存储上)(虚拟机由群集软件来控制,不由本地的libvirt来控制)

pcs resource create web01_res VirtualDomain \
hypervisor="qemu:///system" \
config="/kvm-hosts/web01.xml" \
migration_transport="ssh" \
meta allow-migrate="true" \

#下面这是错误的,不要使用,我曾经不细心,导致折腾好久都无法平滑迁移(ssh模式不能写在最后面)
pcs resource create web01_res VirtualDomain \
hypervisor="qemu:///system" \
config="/kvm-hosts/web01.xml" \
meta allow-migrate="true" priority="100" \
migration_transport=ssh 

#配置约束(每配置一个虚拟机,就需要配置下面类似的约束)
pcs constraint order start VMFS-clone then web01_res		#先启动文件系统,在启动虚拟机资源
pcs constraint colocation add web01_res with VMFS-clone		#资源和文件系统要在同一位置
pcs constraint	#查看约束,可以加 --full

#配置完成后,虚拟机可以正常启动

第八:迁移测试

#pcs cluster standby node2			#平滑迁移ok
#pcs resource move web01_res node2		#平滑迁移ok
#pcs cluster stop				#平滑迁移ok
#init 6						#平滑迁移no

第九:迁移方案

若是节点维护,建议先用move命令迁移虚拟机到其他可用node上,在stop维护节点

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐