近日,在 Facebook 的网站上,该公司的开发者 Daniel Xu 宣布在 GPLv2 许可证下开源 oomd。oomd 是用户空间内存溢出杀手(OOM Killer),它在最近关于块 I/O 延迟控制器的文章中有被提及到。当内存不足时,内存溢出杀手会杀掉一些进程,它的主要任务是保护内核,因此应用程序可能会受到影响。相比传统的 Linux 内存溢出杀手,oomd 会全面监视系统,评估系统是否处于不可恢复的工作负荷下。在系统的 OOM Killer 作用前,oomd 会在用户空间采取纠正措施。

Facebook 表示,它们的基础设施已经发展到包含新闻信息流、Messenger、Instagram、WhatsApp、Oculus以及其他一系列产品。这些产品和它们背后的系统运行于分布在多个地理分布式数据中心的数百万台服务器上。随着基础设施规模不断扩大,Facebook 的机器和网络越来越多地跨越多代,这种多代生产环境的一个副作用是新的软件版本或配置更改可能导致系统在一台计算机上运行正常但在另一台计算机上遇到内存溢出(OOM)问题。传统的 Linux 内存溢出杀手在某些情况下运行良好,但在其他情况下,它启动得太晚,导致系统进入不确定时期的活锁

因此 Facebook 开发了oomd,一种更快、更可靠的解决方案,用于常见的内存溢出(OOM)情况,它可以在用户空间而不是内核空间中运行。Facebook 设计的 oomd 包含两个关键特性:pre-OOM钩子(pre-OOM hooks)和自定义插件系统。在工作负载受到威胁之前,pre-OOM钩子提供了对 OOM 的可见性。由于 OOM 检测标准可能因工作负载而异,因此插件系统支持对检测和进程终止策略进行自定义。

与用于内核空间内存溢出杀手的一些对比




总结

oomd 是新型的用户空间内存溢出杀手(OOM Killer),允许应用程序开发者在工作负载消耗所有可用系统内存时自定义响应。Facebook 表示,他们的测试表明 oomd 是默认 Linux 内核内存溢出杀手的可靠而有效的替代品。他们已经在 Facebook 开发并部署了 oomd,发现它使自家的公司能够减少从构建服务器到机架交换机到共享计算资源的工作负载频率。