批量检查和修复Windows虚拟机的方法
(2)上传vmlist.txt文件后,脚本会读取文件里的主机名或者IP,自动进行VNC登陆和截图,并会压缩成一个以时间日期为名称的压缩文件,可将截图的压缩文件保存到本地。 (3)解压压缩文件,进入目录查看虚拟机VNC截图的目前的运行情况,人工检查虚拟机屏幕截图,并在checklist表格里记录检查信息(重点是将蓝屏、自检、无法进入系统的虚拟机过滤出来)。因为截图已经匹配做好,且做好命名,这个时候人工检查工作量就相对小。 3.4 - 虚拟机一键修复引导 (1)如果虚拟机异常,则尝试进行虚拟机修复。 (2)执行工具输入需要修复IP或主机名,脚本将自动从镜像库将Win PE文件传输到计算节点对应目录下,修改虚拟机配置文件来挂载Win PE(Win PE已进行修改,能够自动进入Win PE并打开NTboot修复工具),然后重启虚拟机以使虚拟机配置生效。 (3)虚拟机启动后,将自动调用NTboot工具进行磁盘修复。此时需要手工进行选择操作和观察修复结果。 3.5 一键重装虚拟机系统 如果需要重装虚拟机,执行工具输入需要重装IP或主机名。脚本将自动: (1)进入计算节点关闭虚拟机。 (2)进入分布式块存储系统节点备份虚拟机镜像,记录镜像ID,然后卸载镜像。 (3)在分布式块存储系统节点中,通过基础镜像(Windows初始化后的状态)克隆出一个跟原有镜像ID一样的镜像,作为新的虚拟机镜像。 (4)重新挂载新的虚拟机镜像,实现重装。 04 -可探讨和优化的问题 上述的Windows虚拟机检查和修复方法,是我们在一次实际故障后根据故障处理过程总结出来的操作方法和脚本工具,由于同类故障遇到的很少,且我们日常主要做Linux维护,对Windows了解不深,可能存在很多疏漏或可优化的地方,大家如有问题或意见,可以留言讨论。 (1)从根源上来说,还是要保证分布式块存储系统及对应网络的稳定性,这个是此故障场景的根源问题。 (2)从我们遇到的故障现象看,分布式块存储系统异常时,Windows虚拟机容易异常,但Linux则相对较少,但我们不知具体原因是什么(例如Linux对磁盘IO读写、文件系统小读写有更好的优化)。不知Windows是否有什么需要特别优化的配置?如有经验欢迎留言分享。 (3)在我们环境里,虚拟机归属其它团队,他们可能禁止ping或监控agent运行,这个时候如何更好判断虚拟机的“死活”?如有经验欢迎留言分享。 (4)目前还有一些环节是需要人工参与判断,例如看虚拟机屏幕判断是否有蓝屏、是否进入自检。这部分可以结合简单的图像识别技术进行实现,自动化程度会更高。 (5)因为此工具的使用并非高频场景(如果高频,老板铁定要爆炒我们了),所以目前还停留在脚本阶段,暂未纳入到我们的运维平台中,后续我们也会进一步优化和改进。 【编辑推荐】
点赞 0 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |