Google stellt TurboQuant vor: KI-Inferenz mit weniger Speicher und niedrigeren Kosten
Google hat ein neues Komprimierungsverfahren namens TurboQuant veröffentlicht, das die Inferenzgeschwindigkeit großer Sprachmodelle deutlich steigern und gleichzeitig den Hardwarebedarf reduzieren soll. Das Verfahren zielt auf eine der zentralen Engstellen beim produktiven KI-Einsatz: den KV-Cache-Speicher.