Zelfs de beste AI-chatbots hallucineren vaak, wat laat zien dat de uitvoer nog niet volledig is te vertrouwen, zo stellen onderzoekers van verschillende universiteiten en het Allen Institute for Artificial Intelligence. Voor hun onderzoek ontwikkelden de onderzoekers een benchmark genaamd WildHallucinations waarmee ze keken of wat AI-chatbots vertellen wel klopt. Voor het onderzoek moesten de AI-chatbots allerlei vragen beantwoorden die ook door gebruikers gesteld zouden kunnen worden (pdf).
Daarbij gebruikten de onderzoekers voor ongeveer van de helft van de vragen onderwerpen die geen Wikipedia-pagina hebben. De meeste AI-chatbots zijn getraind met Wikipedia-data. Eén van de taalmodellen die goed presteerde was Claude 3 Haiku, maar dat kwam mede doordat de chatbot maar 72 procent van de vragen beantwoordde. Vragen waarop de chatbot geen antwoord weet werden niet beantwoord. Daarnaast maakt ook het onderwerp veel uit. Zo blijkt taalmodel Mistral-7B bij het onderwerp 'mensen' in meer dan veertig procent van de antwoorden te hallucineren.
Volgens de onderzoekers is het hallucineren een probleem als gebruikers de uitvoer van de chatbots vertrouwen. "De belangrijkste conclusie van ons onderzoek is dat we de uitvoer van model generations nog niet volledig kunnen vertrouwen", zegt onderzoeker Wenting Zhao tegenover TechCrunch. "Op dit moment kunnen zelfs de beste modellen in slechts 35 procent van de gevallen hallucinatievrije tekst genereren."
Je bent niet ingelogd en reageert "Anoniem". Dit betekent dat Security.NL geen accountgegevens (e-mailadres en alias) opslaat voor deze reactie. Je reactie wordt niet direct geplaatst maar eerst gemodereerd. Als je nog geen account hebt kun je hier direct een account aanmaken. Wanneer je Anoniem reageert moet je altijd een captchacode opgeven.