GPU 性能没问题,模型也训练得不错,但 token 吞吐量就是上不去?问题多半出在 KV-cache 上。本文整理了 10 个实际可用的优化方向,都是能直接上生产环境的那种。 把 utilization 往上调,直到不再频繁出现 preemption;然后再调 max-num-seqs,让批次保持密集但别超出 ...
大型语言模型(LLM)正越来越多地应用于需要外部函数调用的复杂多智能体场景中。这类工作负载给KV Cache带来了严峻的性能挑战:空间竞争会导致关键智能体的缓存被驱逐,而时间利用率低下使得运行工具调用等待期间,停滞的智能体缓存长时间闲置于GPU内存中。
目前,不同大模型厂商发布的大语言模型在处理超长上下文方面已经有显著突破,最高的已能支持数百万 Token 的输入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支持百万Token(1M)级别的超长上下文处理能力。 但是这场有关提升大模型上下文长度的“军备赛”依然不 ...
KV 缓存(KV cache)是让大模型在生产环境中实现高效推理的关键技术之一。本文将通过通俗易懂的方式,从概念到代码,手把手教你从零实现 KV 缓存。 Sebastian Raschka 此前已推出多篇关于大模型构建的深度教程,广受读者欢迎。本篇内容原计划收录于其著作《从零 ...
SwiftKV optimizations developed and integrated into vLLM can improve LLM inference throughput by up to 50%, the company said. Cloud-based data warehouse company Snowflake has open-sourced a new ...