存储管理和AIOps
2020/9/22 9:21:41
随着人们向基于服务的基础设施部署和自动化程度的提高,存储管理员的角色正在发生变化。智能运维(AIOps)提供了一个框架,既可以减轻资源管理中繁琐任务的负担,同时也解决了通过扩展人力资源无法解决的挑战。以下将探讨AIOps的内容以及供应商如何满足客户的需求。
背景
AIOps是调研机构Gartner公司在2016年创造的一个术语。它描述了三个学科(自动化、性能管理和服务管理)组成一个框架来改进基础设施管理员的能力,其实现由多个层组成。
•第1层–数据源。实现自动化以及管理员执行的典型任务需要配置和使用数据。这包括来自系统的遥测和应用程序。
•第2层–实时处理。这意味着实时收集和处理遥测数据,以获取即时价值。
•第3层-规则/模式。需要使用已经确定的规则和模式来分析数据。供应商已经在开发算法,这些算法可以使用PB级的遥测分析,并将其转换为诸如异常检测和故障诊断之类的工具。
•第4层–域算法。其中包括特定于站点的知识,以了解本地化的使用模式和要求。
•第5层–自动化。使用应用程序接口(API)和命令行界面(CLI)来驱动诸如供应和退役(面向客户)之类的任务。这还包括自动化性能管理,例如在可用基础设施中重新平衡工作负载。
跨越这些层的是使用机器学习来观察和检测遥测数据中的趋势,异常,这对于工作人员而言是不切实际或无法计算的。因此需要了解人工智能/机器学习如何协助提供更有效的数据和存储管理。
人为因素
为什么企业需要在存储管理中引入诸如AIOps之类的工具?虽然创建的信息量继续呈指数级增长,但企业中生成的数据(更重要的是存储在企业中的数据)也呈指数级增长。以前被丢弃甚至没有创建的数据如今被视为具有某种可感知的未来价值。企业越来越多地使用机器学习和人工智能,从越来越多的机器生成的数据获取信息。企业现在正在存储数PB字节的信息,并希望对此进行实际操作。
敏捷性
业务流程正在推动对数据存储容量的更大需求,但这只是IT组织所面临挑战的一方面。平均修复时间(MTTR)对于确保基础设施可用性水平接近100%变得重要。IT组织通常希望在问题发生之前就识别并解决问题,而不是等待严重的失败。
•存储和数据保护中对API的需求;
•存储的智慧;
•存储管理和DevOps。
减少或管理硬件干预措施还有其他积极方面。IT部门希望将工程师在数据中心更换故障设备的时间降到很低。任何数据中心干预都是一种风险。众所周知,工程师会因更换而拔出错误的硬件,或者意外地碰到设备并造成意外的停机或重启。
随着企业之间的竞争,从数据分析中获取价值的时间越来越短。这意味着开发人员希望在更短的周期内访问存储设备,是自动化和按需访问。随着资源的创建、使用和返回到数据池中,人们预计其配置越来越灵活,这是任何存储管理员都无法有效跟踪的。
第1层-指标
为了实现有效的AIOps,系统需要测量存储操作信息的元数据和度量。这些端点从存储系统的物理和逻辑方面收集数据。例如,单个HDD硬盘或SSD硬盘操作的数据提供了有关温度、瞬态介质故障、吞吐量、性能和设备正常运行时间的信息。此集合扩展到存储机箱,记录有关前端端口活动、处理器和内存负载、服务器温度和室温的统计信息。
数据收集不仅限于硬件。存储软件很复杂,许多供应商已将其设计模块化。软件端点可以跟踪内部应用程序崩溃、过度使用内存、硬件驱动程序中的错误以及甚至用于驱动软件的命令的使用。最后一点看起来似乎是一个不寻常的指标,但是,查看用户是否在充分利用可用的命令功能或配置正确的实践选项集可能会很有用。
第2、3和4层–实时处理
如
下一页
返回列表
返回首页
©2024 云计算世界-云计算资料和交流中心 电脑版
Powered by iwms