论文题名: | 分布式耦合仿真系统故障的分析与研究 |
关键词: | 分布式仿真;故障分析;耦合器;执行机;恢复策略 |
摘要: | 随着互联网技术的飞速发展,现在的软件系统发展趋势更加规模化和分布化。在大型分布式软件系统中,如计算机数量达数千甚至上万台的数据中心或者云计算中心,由于资源地理位置分布广、节点数量多、交互复杂,导致这类关键支撑系统的开发、调试、优化和维护都非常的困难,这对系统故障的诊断和恢复保障其稳定性和可靠性是一个巨大挑战。由于计算系统软硬件的故障和失效造成的个人和社会损失也是不可避免的,使得人们越来越期待自己所应用和依靠的各种计算系统是稳定、可靠的。因此,针对这一迫切需求,分布式系统故障诊断技术的开发和研究成为近年来各个领域的研究热点和技术发展趋势之一。 高速列车耦合动力学数字化仿真平台采用基于C/S模式的分布式仿真体系结构,主要包任务调度、耦合控制、执行机代理、工况任务等模块。本设计以高速列车耦合动力学数字化仿真平台为研究背景,从作业提交、作业调度、作业耦合计算等方面分析和研究了系统可能遇到的故障,对这些故障原因进行了分析、检测和定位,并对故障采取了相应的处理措施。在本课题中我们提出了作业提交故障诊断策略、作业未调度故障诊断策略、作业挂起故障诊断策略和作业耦合计算通信故障诊断策略等算法。作业提交故障诊断策略对作业提交失败的原因进行定位,并对故障能自动处理的进行自动处理,不能自动处理的通过返回相应的错误码告诉用户;作业未调度故障诊断策略对作业提交成功,而该作业又未调度的原因进行定位,并对故障进行了相应的处理;作业挂起故障诊断策略对仿真系统突然停止,无法继续进行下一步仿真的原因进行定位,并通过返回错误码告诉用户;耦合计算通信故障是仿真系统耦合计算时耦合器和执行机之间由于通信设备故障或通信繁忙等原因导致系统出现通信堵塞、信息丢包等故障,耦合计算故障诊断策略通过信息重传、定时检测、多次请求等机制实现了仿真系统的断点续算。 本文首先介绍了课题的研究背景及意义、国内外研究现状及主要研究工作,接着介绍了作业提交、作业调度、作业挂起等故障诊断及恢复策略,作业耦合计算通信故障诊断及恢复策略等算法,并对相应算法进行了测试,最后对整个工作进行了总结和展望,分析并指出了目前存在的不足及下一步研究工作。 |
作者: | 杨岩岩 |
专业: | 信号与信息处理 |
导师: | 黄海于 |
授予学位: | 硕士 |
授予学位单位: | 西南交通大学 |
学位年度: | 2013 |
正文语种: | 中文 |