首站-论文投稿智能助手
典型文献
E级高性能计算机的维护故障诊断系统研究
文献摘要:
E级计算机系统规模巨大,使得故障异常总量随之增多,导致诊断发现的难度增加,因此,迫切需要一套更加准确高效的实时维护故障诊断系统,对硬件系统进行全面的异常及故障信息实时检测、故障诊断及故障预测.传统故障诊断系统在面对数万节点规模的诊断时存在执行效率低、异常检测误报率高的问题,异常检测及故障诊断的覆盖率不足.对异常及故障检测、故障诊断与故障预测相关技术进行研究,分析技术原理及适用性,并结合E级高性能计算机实际工程需求,设计一套满足数E级高性能计算机需求的维护故障诊断系统.基于维护系统的结构组成设计可扩展的边缘诊断架构,将高性能计算机系统知识、专家知识与数理统计、机器学习相融合给出故障检测、诊断及预测算法,并针对专用场景建立预测模型.实验结果表明,该系统具有较好的可扩展性,能在10 s内完成对十万个节点规模系统的故障诊断,与传统故障诊断系统相比,异常检测某特定指标误报率从3.3%降低到几乎为0,硬件故障检测覆盖率从90.2%提升至96%以上,硬件故障诊断覆盖率从71%提升至约94%,能较准确地预测多个重要应用场景下的故障.
文献关键词:
高性能计算;维护系统;异常检测;故障诊断;故障预测
作者姓名:
建澜涛;任秀江;张祯;石嵩;黄益明;张春林
作者机构:
江南计算技术研究所,江苏 无锡 214083;国家并行计算机工程技术研究中心,北京 100190
文献出处:
引用格式:
[1]建澜涛;任秀江;张祯;石嵩;黄益明;张春林-.E级高性能计算机的维护故障诊断系统研究)[J].计算机工程,2022(12):24-37
A类:
B类:
高性能计算机,故障诊断系统,级计算机,计算机系统,硬件系统,故障信息,实时检测,故障预测,数万,万节,执行效率,异常检测,误报率,故障检测,技术原理,工程需求,足数,维护系统,结构组成,组成设计,专家知识,数理统计,预测算法,可扩展性,十万个,模系统,硬件故障,重要应用
AB值:
0.247359
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。