2月25日-27日,第二十三届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies,简称FAST)在美国圣克拉拉举办。计算机系教师章明星、武永卫、郑纬民团队和月之暗面公司合作发表的论文“以键值缓存为中心的以存换算大语言模型推理架构”(Mooncake: Trading More Storage for Less Computation — A KVCache-centric Architecture for Serving LLM Chatbot)荣获埃里克·里德尔最佳论文奖(Erik Riedel Best Paper Award)。该论文的第一作者为计算机系博士生秦若愚,导师为助理教授章明星。

最佳论文奖
该论文介绍的系统Mooncake是月之暗面公司推出的大语言模型服务Kimi的底层推理服务平台。该平台采用一种以键值缓存(KVCache)为中心的分离架构,不仅将预填充和解码集群分开,还高效利用了推理集群中未充分利用的CPU、DRAM、SSD和NIC资源,建立了一个分离的KVCache缓存池。Mooncake的核心是其以KVCache为中心的全局缓存和调度器,旨在严格的延迟相关服务级别目标(SLOs)下最大化吞吐量。
实验表明,Mooncake在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake在符合SLOs的情况下,将有效请求处理能力提高了59%~498%。目前,Mooncake已在数千个节点上运行,每天处理超过1000亿个token。在实际部署中,Mooncake的创新架构使Kimi在NVIDIA A800和H800集群上分别比以前的系统多处理115%和107%的请求。

秦若愚同学在FAST会场作报告
FAST是计算机存储领域的顶级学术会议,始于本世纪初,已有20余年历史,对存储领域具有重要影响,因录取率很低,发表难度高,被中国计算机学会认定为存储系统A类国际学术会议,至今已经举办二十三届。
本次参会得到了由邓锋先生捐资设立的清华大学信息学院“登峰基金”中“出席国际会议专项基金”的支持,在此对资助方邓锋先生表示诚挚感谢。
来源:计算机系研究团队
编排:丁亚娜
审核:贾 珈