NVIDIA KVPress: Effizientere Speichernutzung beim Einsatz großer Sprachmodelle
NVIDIA hat mit KVPress ein Open-Source-Framework veröffentlicht, das den Speicherbedarf bei der Inferenz von Large Language Models deutlich reduziert. Im Mittelpunkt steht die Komprimierung des sogenannten KV-Cache – eines zentralen Engpasses beim Betrieb von LLMs mit langen Kontextfenstern in Unternehmensumgebungen.