vSAN 提供适合各种类型和规模的企业的企业级规模和性能。在设计 vSAN 集群时,需要考虑几个方面,例如硬件、网络和 vSAN 架构。vSAN 设计和规模调整指南是一个很好的起点, 但在做出设计决策时,了解 vSAN 如何响应各种故障场景非常重要。这篇文章确定了一些更常见的故障场景、vSAN 如何响应以及对虚拟机的总体影响。
失败场景
对于大多数存储系统,故障通常被识别为临时的、永久的或未知的。vSAN 将故障分类为“不存在”,即所有路径故障 (APD),或“降级”,即物理设备丢失 (PDL)。
降级状态是指已知设备以某种方式发生故障,以至于它不太可能恢复健康。在这种情况下,重建会立即开始。例如,如果驱动器遇到写入失败。另一个例子是控制器报告故障。
并非所有设备故障都是永久性的。事实上,设备暂时丢失并可能会返回更为常见。缺席状态是指设备失去连接并且vSAN无法确定它是否会返回。默认情况下,这些重建会延迟 1 小时,以确定它们是否是暂时的。这将避免不必要的重建,这些重建可能会影响集群范围的性能,或者导致恢复到健康状态的时间更长。一些示例包括主机重新启动、崩溃、断电或网络或驱动器断开连接。对于管理员需要调整 vSAN 在开始重建数据以重新建立与存储策略的合规性之前等待的时间的情况,UI 中提供了新的“对象修复计时器延迟”。
以下动画显示了 ESXi 主机已不存在超过 60 分钟。vSAN 会在另一个可用主机上重建组件。当不存在的主机返回时,vSAN 会丢弃过时的组件。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...