贺:中科易存中标大屯煤电(集团)有限责任公司国产化服务器灾备项目!
Detail
¥ 暂无报价
软件

产品详情

 简介:易存硬盘故障预测是易存推出的针对硬盘设备的可靠性检测,定期为客户提供灵活、快捷的硬盘预测分析报告。利用硬盘检测分析工具,帮助客户收集整理硬盘设备的运行信息,并提供硬盘设备的健康状况预警、运行情况分析、资源使用情况、硬盘寿命预测,以及运行风险分析等。

   使用本产品,客户可以通过服务工具平台了解当前生产环境中服务器系统硬盘运行的负载和资源状况,发现硬盘系统中存在的故障隐患,或是通过对历史数据的分析了解硬盘系统的风险和变化趋势,满足客户在运维过程中对系统保障和系统发展的需要。以下是软件使用效果视频演示:

     

服务特点

 

灵活透明部署

· 数据采集引擎采用非侵入式部署,无需改动原服务器、存储系统配置或工作方式。

· 无需进行繁复的部署和管理。

· 支持跨站点多地集中管控。

资源开销低

· 数据采集引擎占用MB级主机存储空间。

· 运行态占用CPU 0.2%以下,占用内存4MB以下。

· 网络开销峰值2KB/s,平均0.05KB/s以下。

广泛兼容

· 支持Ceph、GlusterFS、Lustre、HDFS……等开源产品。

· 支持vSAN、ScaleIO、NDFS、GPFS……等商业产品。

· 支持机械磁盘和闪存设备。

· 支持SAS、SATA、FC、NVMe等接口类型。

为什么需要故障预测:

软件定义存储已经日益普及,成为企业用户构建存储系统的重要方式之一。在提升灵活性、开放性的同时,软件定义存储系统在硬件兼容性、可靠性、稳定性等方面却承受着巨大挑战,其严峻程度远远超过传统封闭体系的存储设备。传统中高端磁盘阵列厂商为提升产品稳定性而设置的各种严苛限制,在软件定义存储系统中难以执行,特殊硬件模块或工作机制,则更是无法实现。

实践中,软件定义存储系统只能采用多副本或纠删码机制对抗故障风险。然而多重副本机制,使磁盘空间资源浪费严重。同时为保证多重副本一致性所付出的CPU、内存和网络资源开销也相当可观,在规模化系统中其可靠性仍然难称坚固。并且,即使牺牲资源效率采用奢侈的冗余机制,也仅能防范故障发生时数据不会丢失,却无法规避故障后数据修复过程中必然出现的性能折损。这使软件定义存储系统的总体工作状态,必然会因磁盘故障而出现不可预期的QoS波动。而且系统规模越大,波动就越频繁,再多重副本对此也无能为力。

如果可以准确预判每颗磁盘的健康时限,相应数据的修复时长和资源开销,以及系统负载的变化规律等几方面信息,存储系统便可以在磁盘故障发生前,规划出最合理的时间和资源窗口,提前进行数据修复,保证修复过程不会侵占业务负载所需资源,系统QoS依然保持最佳状态。而故障真实发生时,由于数据修复已经提前完成,故障本身也不会对系统QoS造成任何影响。

采用故障预判和提前修复的机制,则可以颠覆性突破传统容错机制中的种种限制。由于不再被动受制于大规模系统中的多盘同时故障概率,仅依靠最基础的副本冗余机制,就可以充分保证数据可靠性,与所分布的磁盘数量无关。

如何实现精准故障预测:

基于故障预测的预修复机制,要求预测必须足够精准。而磁盘设备内嵌的SMART(Self-Monitoring, Analysis and Reporting Technology)技术,所提供的故障预测准确率仅在30%以下,无法直接用于指导预修复。SMART预测失效的主要原因在于,这个开始于25年前的技术框架过于简单,仅基于磁盘内部统计数据进行简单的线性静态分析,在负载模式千变万化的实际应用中,完全不具备动态调整适应能力。

此外系统视角的“磁盘故障事件”并非完全是指物理磁盘本身的坏损,也包括设备接口、链路通讯、供电、散热、驱动软件等若干关联方面临时或永久性故障。仅仅依靠对磁盘内部坏块和指令执行失败的统计,其基础信息维度便远远不够。

为了能够充分准确的分析预测,DiskLife不仅采集磁盘SMART信息和磁盘元数据信息,还同时采集CPU利用率、内存占用率、网络占用率、I/O负载状态……等诸多反应业务负载模式的信息。由人工智能引擎对所有维度上的信息进行分析,便可准确预测出系统中“磁盘故障事件”将会发生的时间和位置。目前DiskLife预测准确率已经达到95%以上。通过深度机器学习不断的训练,其分析引擎的预测能力还在持续提升。

DiskLife人工智能引擎在准确预判的同时,还可以根据资源和业务负载状况,综合评估数据修复时间、应用性能影响和数据可靠性风险。根据评估结果,制定最佳处理策略,向软件定义存储系统发送数据修复指令。

 

客户收益:

l 数据处理任务运行时间缩短

借助DiskLife磁盘故障预测技术,几乎可以彻底消除以往频繁出现的生产任务返工,平均缩短任务执行时间30%以上。客户因此可以在不增加任何硬件资源的前提下,更快速及时的对外输出数据处理结果。

l 老旧硬件设备得以充分有效利用

以往因惧怕节点故障影响集群整体效率,对运行超过三年的老旧节点,只能谨慎使用,仅执行少量临时性或边缘性任务。利用DiskLife预测技术之后,集群调度系统可以放心分配任务到任意节点,旧设备的资源也可以得到充分利用。

l 整体资源效率大幅度提升

由于采用了故障预测技术实现主动式防御机制,系统对冗余度的依赖程度大大降低。即使运行重要关键任务的节点,也可以只配置基本冗余度就能满足系统整体可靠性要求。这样便在系统中释放出大量资源,这些资源都可以用于投入实际生产任务。系统整体资源效率因此得到大幅度提升。

l 显著减少系统维护工作量

由于DiskLife预测精准,大量传统的意外故障被转化为可计划事件,其应对方式也从被动响应变为主动治理。因此数据中心的日常运维工作计划性更强,流程管理更为简洁高效。运维团队在可靠性保障方面节省更多时间精力,更专注于系统优化和新技术引入等其他工作。


没有了! 没有了!