五花八门

VSAN故障日记

liaoya · 9月27日 · 2020年 400次已读

1:迁移一台虚拟主机时,发现迁移后,虚拟主机磁盘使用量无故变大。

描述:虚拟主机,在VSAN集群内看见磁盘使用量为200G左右,迁移后磁盘使用量为900G。

解决问题:

通过预览迁移后主机磁盘文件发现,文件夹中多了2个PSF文件,大概有700G。

此时,对虚拟机进行克隆,克隆出来的虚拟机,磁盘是用来为:200G左右(但无法启动,启动报错:hbr_filter 缺少所需选项: gid。)

首先,我想先启动克隆出来的虚拟机,900G确实有点吃不消。

提供分析发现,虚拟机无法启动的原因是做了vSphere Replication,而虚拟机配置文件(.vmx)中的vSphere Replication无效的条目。

解决办法:

通过SSH进入虚拟机所在的ESXI主机,找到对应的虚拟机所在目录:/ vmfs / volumes / virtual_machine_datastore / virtual_machine_folder /,编辑虚拟机配置文件:vi virtual_machine.vmx。

删除所有包含hbr_filter的条目。
例如:
hbr_filter.configGen =“”
s csi0:0.filters =“”
hbr_filter.rpo =“”
hbr_filter.destination =“”
hbr_filter.port =“”
hbr_filter.gid =“”
hbr_filter.protocol =“”
hbr_filter。 quiesce =“”
hbr_filter.opp =“”
hbr_filter.pause =“”
scsi0:0.hbr_filter.rdid =“”
scsi0:0.hbr_filter.persistent =“”
注意:您也可以在每行之前加上注释,以注释掉每一行一个#。

保存退出后,虚拟机顺利启动。


接下来处理PSF文件问题,通过上面的解决办法,知道了2个PSF大文件是和vSphere Replication有关系。

迁移完所有虚拟机后,对VSAN集群开始故障分析和尝试修复

迁移出所有虚拟机后,再VSAN中用虚拟机测试,本机同读同写,结果:14.5MB/秒。感觉不对。
VSAN后台事件报告,I/O延迟增加。

VSAN主动测试无效,主动测试为在集群中的每个ESXI主机下面创建一个虚拟机。
重启交换机尝试
VSAN在线时重启交换机:出现部分虚拟机无法访问,等待很长时间后恢复

重启VSAN的ESXI集群尝试
配置-》服务-》vSphere可用性-》关闭vSphere HA
配置-》VSAN-》服务-》关闭VSAN (出现了常规系统错误: Failed to leave the host from vSAN cluster. The command should be retried:)
主机进入维护模式失败(常规VSAN错误)
强制关闭所有ESXI主机后,再开机。从建VSAN单点故障域。(VSAN对象运行状况报警)

虚拟机可正常开机使用,但磁盘I/O极低。3-4MB/秒

VSAN磁盘报警,有多个错误
有一台主机的数据需要同步
修复同步数据,大概需要6小时
同步数据后,I/O依然缓慢,决定放弃整个平台,重建。
这是系统刚建成时的测速

最后,通过通过一系列的抢救工作,虽然没有得到理想的结果,但可以顺利迁移,原来无法迁移的虚拟机了。

0 条回应