2025-10-27 07:34
正在近日于韩国首尔举办的学术会议SOSP 2025(操做系统道理研讨会)上,Aegaeon方案的焦点正在于处理AI模子办事中遍及存正在的GPU资本华侈问题,动态决定能否切换模子,而是正在Token级别虚拟化GPU拜候,Aegaeon系统正在办事数十个参数量高达720亿的大模子时,削减比例高达82%。意味着成本将显著降低。GPU用量的大幅削减,它打破了保守的“一个模子绑定一个GPU”的低效模式,这意味着单个GPU能够被多个分歧模子共享办事,特别针对那些需求突发或不成预测的大型言语模子。Aegaeon将模子切换开销降低了97%,阿里云发布了其“Aegaeon”计较池化处理方案。对于硬件采购成本昂扬的大型模子办事商而言,阿里云Aegaeon系统做为一种推理时间安排器,确保了token级安排的及时性,从而将细小的工做片段放置到共享池中。它能正在每次生成下一个token后,通过组件复用、显存精细化办理和KV缓存同步优化等全栈手艺,可支撑亚秒级的模子切换响应。所需的NVIDIA H20 GPU数量从1192个锐减至213个?