尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着计算机硬件水平的不断提高,超级计算和云计算架构的规模以及复杂度也随之而增加。然而随着计算规模以及复杂度的增加,计算任务发生故障的概率也会增加。例如在分布式系统中,一个节点的计算因为意外情况导致运行失败将导致整个计算任务运行失败... 展开 随着计算机硬件水平的不断提高,超级计算和云计算架构的规模以及复杂度也随之而增加。然而随着计算规模以及复杂度的增加,计算任务发生故障的概率也会增加。例如在分布式系统中,一个节点的计算因为意外情况导致运行失败将导致整个计算任务运行失败,这将带来巨大的资源浪费。因此,能够在故障发生时容忍故障就显得尤为重要了。检查点技术就是这样一种有效的容错手段,已经被广泛应用于计算机、数据库系统中。通过使用检查点技术,可以将程序在内存中的状态信息写入到持久性的存储设备中。一旦程序运行发生了意外,通过将检查点文件中的内容重新映射到内存中,最后能恢复程序的继续运行,这样就能够最大程度的避免计算时间和资源的浪费。 然而随着检查点需要存储的内容越来越多,而且检查点的设置也越来越频繁,因此使得检查点文件的大小也越来越大,这样就给存储的可扩展性带来了巨大的挑战。本文首先分析了检查点文件中所组成的内容,然后针对于这些不同的内容来进行实验,以此来获取检查点文件中内容的冗余性。在检查点文件中存储的内容有:进程描述符、进程地址空间中的内容、寄存器里面的数据等。而对这些内容在检查点文件中存储的比例中分析,发现进程地址空间中的内容占据了检查点文件中大部分的存储空间。在随后对进程地址空间中的内容进行分析后发现,栈段自身存在着非常多的冗余信息,而在分布式程序中,不同进程间的堆、栈段有着极高的相似度,同时这些进程所运行的代码段、加载链接库以及采取了共享内存通信方式的共享内存内容都是相同的。根据检查点文件中所组成内容的冗余性,本文提出了一种减少检查点文件大小的方法。该方法是在设置检查点的过程中,根据检查点文件中的内容的冗余性来采取不同的处理策略,最终达到减少检查点文件大小的目的。 DMTCP是一个开源的检查点工具,根据本文所提出的减少检查点文件大小的方法,本文对基于DMTCP的检查点系统进行了设计与实现。最后使用该系统进行实验,实验显示了通过使用本文的方法可以减少单节点的应用程序检查点文件大小20%左右,能够减少分布式程序检查点文件大小47%左右。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。