TriAttention: Neue KV-Cache-Methode steigert LLM-Durchsatz um das 2,5-Fache
Forschern des MIT, NVIDIA und der Zhejiang University ist es gelungen, einen zentralen Engpass beim Betrieb großer Sprachmodelle zu adressieren: Mit der Methode „TriAttention” lässt sich der Inference-Durchsatz auf das 2,5-Fache steigern, ohne messbare Einbußen bei der Ausgabequalität. Das Verfahren zielt auf die Komprimierung des sogenannten KV-Cache ab, eines der ressourcenintensivsten Elemente moderner Large Language Models.