🌐 t3n.de
Merkwürdige GPT-4o-Antworten: Warum Tokenizer-Trainingsdaten für China voller Spam und Porno sind | t3n
Das jüngste Sprachmodell von OpenAI bringt zahlreiche Verbesserungen. Chinesische Nutzer haben aber ein Problem: Der sogenannte Tokenizer, der die Texteingaben verarbeitet, wurde mit problematischen Daten trainiert. Das hat Folgen. Kurz nachdem OpenAI Mitte Mai mit großem Tamtam das große Sprachmodell (Large Language Model, LLM) GPT-4o veröffentlicht hatte, bemerkten einige chinesische Muttersprachler, dass mit dieser neuesten […]
↗ https://t3n.de/news/merkwuerdige-gpt-4o-antworten-warum-tokenizer-trainingsdaten-fuer-china-voller-spam-und-porno-ist-1625518/