🌐 heise.de
Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust
Googles TurboQuant drückt den KV-Cache großer Sprachmodelle auf 3 Bit. Die Genauigkeit soll bleiben, die Geschwindigkeit sich vervielfachen.
↗ https://www.heise.de/news/TurboQuant-Google-will-den-Speicherhunger-grosser-LLMs-baendigen-11224445.html