🌐 heise.de

Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust

Googles TurboQuant drückt den KV-Cache großer Sprachmodelle auf 3 Bit. Die Genauigkeit soll bleiben, die Geschwindigkeit sich vervielfachen.

heise news turboquant google will den speicherhunger grosser llms baendigen

Indexiert von findnix.eu · Eigene Seite einreichen