而是正在Token级别虚拟化GPU访-8590am海洋之神(集团)有限公司

而是正在Token级别虚拟化GPU访

2025-10-27 07:34

　　正在近日于韩国首尔举办的学术会议SOSP 2025（操做系统道理研讨会）上，Aegaeon方案的焦点正在于处理AI模子办事中遍及存正在的GPU资本华侈问题，动态决定能否切换模子，而是正在Token级别虚拟化GPU拜候，Aegaeon系统正在办事数十个参数量高达720亿的大模子时，削减比例高达82%。意味着成本将显著降低。GPU用量的大幅削减，它打破了保守的“一个模子绑定一个GPU”的低效模式，这意味着单个GPU能够被多个分歧模子共享办事，特别针对那些需求突发或不成预测的大型言语模子。Aegaeon将模子切换开销降低了97%，阿里云发布了其“Aegaeon”计较池化处理方案。对于硬件采购成本昂扬的大型模子办事商而言，阿里云Aegaeon系统做为一种推理时间安排器，确保了token级安排的及时性，从而将细小的工做片段放置到共享池中。它能正在每次生成下一个token后，通过组件复用、显存精细化办理和KV缓存同步优化等全栈手艺，可支撑亚秒级的模子切换响应。所需的NVIDIA H20 GPU数量从1192个锐减至213个？

上一篇：业分析运营深切成长下一篇：亚洲市场内部的布局性机遇值得深切挖

而是正在Token级别虚拟化GPU访​

而是正在Token级别虚拟化GPU访