🌐 t3n.de
Bei diesem neuen Mathe-Benchmark versagen selbst die besten KI-Systeme | t3n
In teils tagelanger Arbeit haben Spitzen-Mathematiker:innen anspruchsvolle Aufgaben für einen neuen Mathe-Benchmark entwickelt – bei dem selbst die besten KI-Systeme wie GPT-4o, Claude 3.5 und Gemini 1.5 Pro versagen. Noch tun sich KI-Modelle wie GPT schwer mit Mathematik und logischem Denken. In einigen bestehenden Mathematik-Tests wie GSM8K oder Math erreichen sie aber dennoch zum Teil […]
↗ https://t3n.de/news/mathe-benchmark-ki-1657346/