image

Onderzoek: zelfs de beste AI-chatbots hallucineren vaak

donderdag 15 augustus 2024, 12:05 door Redactie, 24 reacties

Zelfs de beste AI-chatbots hallucineren vaak, wat laat zien dat de uitvoer nog niet volledig is te vertrouwen, zo stellen onderzoekers van verschillende universiteiten en het Allen Institute for Artificial Intelligence. Voor hun onderzoek ontwikkelden de onderzoekers een benchmark genaamd WildHallucinations waarmee ze keken of wat AI-chatbots vertellen wel klopt. Voor het onderzoek moesten de AI-chatbots allerlei vragen beantwoorden die ook door gebruikers gesteld zouden kunnen worden (pdf).

Daarbij gebruikten de onderzoekers voor ongeveer van de helft van de vragen onderwerpen die geen Wikipedia-pagina hebben. De meeste AI-chatbots zijn getraind met Wikipedia-data. Eén van de taalmodellen die goed presteerde was Claude 3 Haiku, maar dat kwam mede doordat de chatbot maar 72 procent van de vragen beantwoordde. Vragen waarop de chatbot geen antwoord weet werden niet beantwoord. Daarnaast maakt ook het onderwerp veel uit. Zo blijkt taalmodel Mistral-7B bij het onderwerp 'mensen' in meer dan veertig procent van de antwoorden te hallucineren.

Volgens de onderzoekers is het hallucineren een probleem als gebruikers de uitvoer van de chatbots vertrouwen. "De belangrijkste conclusie van ons onderzoek is dat we de uitvoer van model generations nog niet volledig kunnen vertrouwen", zegt onderzoeker Wenting Zhao tegenover TechCrunch. "Op dit moment kunnen zelfs de beste modellen in slechts 35 procent van de gevallen hallucinatievrije tekst genereren."

Image

Reacties (24)
15-08-2024, 12:46 door Anoniem
En dan is natuurlijk een interessante vervolgvraag hoe vaak een menselijke 'expert' te vertrouwen is. Iets te vaak zijn experts (geheel volgens het Peter-principle) vooral bezig te zorgen dat anderen niet door hebben dat ze het eigenlijk ook niet weten. Dure woorden, wollig taalgebruik en eigenlijk geen concrete antwoorden. Mij valt altijd wel de absolute zekerheid op waarmee bijv. ChatGPT de grootste onzin kan verkopen. Dan valt een menselijke hallucinator wellicht eerder door de mand.
15-08-2024, 13:20 door Bitje-scheef
Om dit te "verfijnen" gaat nog wel even duren denk ik. We staan eigenlijk nog steeds in de kinderschoenen met AI projecten. Ook al ziet het er bemoedigend uit.

Ben nog steeds bezig met mijn HAL9000.
15-08-2024, 13:50 door Anoniem
Door Bitje-scheef: Ben nog steeds bezig met mijn HAL9000.

IBM - 1
15-08-2024, 13:54 door Anoniem
Ik heb er zelf ook last van, al zolang als ik internep. Hallucineren. En dat is echt al heel erg lang. Als ik gewoon een email krijg, dan is mijn eerste gedachte dat het om een aardig iemand gaat. Komt waarschijnlijk ook omdat ik er gevoelig voor ben dat ik aandacht krijg. Maar soms zijn het totale kloodtzakken. Waar je dan nog vriendelijk tegen gaat zitten wezen ook. Is feitelijk ook een vorm van hallucineren. Je ziet de persoon aan de andere kant niet. Je mist alle lichaamstaal. Je koppie vormt zich er gelijk een positief beeld bij. Op zich niet slecht om alles positief te blijven zien. Maar af en toe zit mijn koppie er helemaal naast. Met kunstmatige beeldvorming.

Mensen zonder zelfkennis kunnen AI beter niet gebruiken. Ze waren al lui en negatief, verwachten dat dit nu eindelijk eens alles voor ze oplost. En dan willen ze er nog geld aan verdienen ook. Maar dat moet iemand anders maar voor ze oplossen dan. Omdat het voor die ander toch heel gemakkelijk is, iets met een app of zo, dus mag niks kosten ook.

AI is een heel geinig nieuw hulpmiddel. Maar je moet wel willen leren fietsen. Anders ga je op je bek.
15-08-2024, 14:38 door Anoniem
Door Bitje-scheef: Om dit te "verfijnen" gaat nog wel even duren denk ik. We staan eigenlijk nog steeds in de kinderschoenen met AI projecten. Ook al ziet het er bemoedigend uit.

Ben nog steeds bezig met mijn HAL9000.
Het probleem hierbij is dat dat verfijnen vaak meer schade aan het model doet dan goed.
We moeten tig keer tegen klanten van onze toepassingen zeggen dat we niet alle hallucinaties kunnen stoppen tenzij we de scope van het model aanzienlijk verkleinen. Vaak de teugels laten vieren betekent wel meer gevarieerde hallucinatie maar tegelijk ook minder vaak dat het voorkomt.

Je kunt dit zelf testen door een spelling check A.I te pakken. Gooi er een groot genoeg lap tekst in en je zult een loop gaan zien waarbij de A.I. een woord wil vervangen met een ander woord en vervolgens dat woord weer met het vorige woord wil vervangen. Beide kloppen technisch maar niet in gramaticale toepassing en als je de 1 verbied dan gaat er veel meer naar de knoppen. Dus je kiest voor 1 van de foute of je herschrijft het geheel.

Een beetje zoals je ook site metrics moet benaderen. Je kan giga er bovenop zitten, zodat je page speed etc. hoog is, maar als je 1 waarde dan heel laag hebt zitten wat je niet hoger kan krijgen door site functionaliteiten gaat je totaal gemiddelde hoe dan ook naar de knoppen. Of je kan genuanceerder optimaliseren waardoor het gemiddelde over de gehele linie hoger ligt. Eerste is natuurlijk technisch beter maar leg maar aan een klant uit waarom die gemiddelde 35% score toch echt beter is dan de 70%.die je ze door kan sturen.
15-08-2024, 14:44 door Anoniem
Ik ben dol op AI, (al is de afkorting "AI onzin aangezien het hier niet gaat om kunstmatige instelligentie maar om een algoritme in de vorm van een soort zoekmachine) ik draai het op zowel mijn PC als telefoon en tablet.
Ik draai alleen offline software en AI-modellen gebaseerd op vrije software.
Mijn Tensor G2+8GB werkgeheugen kan het wel aardig aan met modellen tot 7B parameters.
Meestal draai ik niet hoger dan 4-5bit modellen, anders wordt het te traag.
Ook mijn Ryzen 5 4500U (integrated GPU) vind het wel okee zolang ik meer VRAM toewijs via de UMA framebuffer.
Daarnaast heb ik lekker snel 64GB werkgeheugen, (met vermindering van geheugen via de UMA framebuffer) en een snelle SSD.
Ook GNU/Linux gaat er goed mee om.
Daarnaast houd ik niet van censuur, dus draai ik ongecensureerde modellen, ik vindt het super irritant om in "discussie" te gaan met mijn computers om daar omheen te werken, als ik bijv. sappige grappen wil horen of de AI denkt dat ik iets serieus meen wil ik gewoon waar mijn computer voor bedoeld is; mijn commando's opvolgen, dat ding is er voor mij, niet andersom.
15-08-2024, 15:15 door Anoniem
Kern van het probleem is dat de eindgebruiker gewoon vertrouwd wat een computersysteem uit spuugt. Hoeveel procent van de excel sheets waar bedrijven beleid op bepalen bevatten ook grote fouten en toch draaien bedrijven door.
15-08-2024, 15:22 door Anoniem
Meeste llm zijn getraind met wiki data. Dat is mooi te zien met Bing search.

Type één zoek argument in met het trefwoord “wiki” toegevoegd en klik de zoeken knop. Dan zie je tussen de resultaten de wiki pagina in de top 10 en enkele tellen later begint copilot rechts op de pagina precies dezelfde data te “genereren”. Alleen dit AI resultaat is tot 7 keer meer energiebelastend dan de normale zoekfunctie.
15-08-2024, 16:01 door Anoniem
Door Anoniem: Ik ben dol op AI, (al is de afkorting "AI onzin aangezien het hier niet gaat om kunstmatige instelligentie maar om een algoritme in de vorm van een soort zoekmachine) ik draai het op zowel mijn PC als telefoon en tablet.
Ik draai alleen offline software en AI-modellen gebaseerd op vrije software.
Mijn Tensor G2+8GB werkgeheugen kan het wel aardig aan met modellen tot 7B parameters.
Meestal draai ik niet hoger dan 4-5bit modellen, anders wordt het te traag.
Ook mijn Ryzen 5 4500U (integrated GPU) vind het wel okee zolang ik meer VRAM toewijs via de UMA framebuffer.
Daarnaast heb ik lekker snel 64GB werkgeheugen, (met vermindering van geheugen via de UMA framebuffer) en een snelle SSD.
Ook GNU/Linux gaat er goed mee om.
Daarnaast houd ik niet van censuur, dus draai ik ongecensureerde modellen, ik vindt het super irritant om in "discussie" te gaan met mijn computers om daar omheen te werken, als ik bijv. sappige grappen wil horen of de AI denkt dat ik iets serieus meen wil ik gewoon waar mijn computer voor bedoeld is; mijn commando's opvolgen, dat ding is er voor mij, niet andersom.

Precies! De verantwoordelijkheid moet bij gebruikers liggen en niet computers, zodra computers verantwoordelijkheden gaan dragen voor mensen en hetgeen dat mensen er mee doen is het eind zoek.
Er zjn gewoon wetten in plaats om het daadwerkelijk uitvoeren van fantasieën te voorkomen.
Anders zouden we ook horrorfilms moeten opzeggen, deze geven immers ook voorbeelden van bijv. geweld en gruwel, evenals lectuur zoals boeken.
Vrijheid van meningsuiting en spraak, en al helemaal n de privésfeer moet intact blijven.
Daarnaast is code als vrije spraak.
15-08-2024, 17:10 door Anoniem
AI hoef je niet zo kwaad af te schilderen.

Geweldig hulpmiddel voor taalanalyse.
Heeft nog wat last van de Amerikaans-Engelse inregeling,
die het met de- en het-woorden wel eens te veel wordt,
concrete van abstracte voorbeelden te onderscheiden.

Geef het ontwikkeltijd. Hopelijk wordt het niet door
krachten achter de schermen gebruikt tegen hun product,
de consumerende mens via Big Commerce en IT.

#laufer
15-08-2024, 20:14 door Anoniem
Het probleem blijft dat AI door mensen wordt ontwikkeld... Die zijn over het algemeen ook vrij geschift.. :-)
15-08-2024, 23:10 door Anoniem
ChatGPT of een ander LLM heeft geen idee wat het tegen je zegt als het antwoord geeft.
Deze man legt uit hoe een LLM intern werkt (nogal verhelderend) en hoe het tot een antwoord komt.

https://www.youtube.com/watch?v=7esIw6_FVf0

Voor een heleboel dingen is het leuk te gebruiken, maar erop vertrouwen is niet verstandig
16-08-2024, 10:12 door Anoniem
Zo blijkt taalmodel Mistral-7B bij het onderwerp 'mensen' in meer dan veertig procent van de antwoorden te hallucineren.
Ok maar is dat niet hetzelfde als wanneer je het een 'mensen' vraagt?
Als je ziet wat sommige mensen vertellen over bepaalde niet aan stricte logica onderhevige onderwerpen dan vraag je je ook af hoe ze dat kunnen...
Als je kunstmatige intelligentie gaat ontwikkelen, moet dat dan lijken op menselijke intelligentie, of moet je een perfecte vraagbaak ontwikkelen die zich niet als een mens gedraagt?
Voor beiden zal wel iets te zeggen zijn, maar ik denk dat die 2e eerder als onbruikbaar en ongeloofwaardig gezien wordt dan die eerste...
16-08-2024, 10:18 door Anoniem
Tot wanneer noemen we het niet meer "Hallucineren"? :)
16-08-2024, 13:22 door Anoniem
Door Anoniem: Tot wanneer noemen we het niet meer "Hallucineren"? :)

Zodra we aan het taalgebruik gewend zijn.
16-08-2024, 18:38 door Anoniem
Wat ik nog even wil aanvullen aan mijn eerdere reactie is dat ik, bij goed gebruik en juiste vraagstelling, tot nu toe best onder de indruk ben van de chatbots. Vooral in de beginperiode van de chatfunctie van Bing heb ik interessantere gesprekjes gevoerd dan doorgaans in de kroeg :-)
17-08-2024, 06:58 door Anoniem
Door Anoniem: Tot wanneer noemen we het niet meer "Hallucineren"? :)
Als we generatieve AI geen kunstmatige intelligentie meer noemen, misschien ;-)
17-08-2024, 12:34 door Anoniem
Door Anoniem:
Door Anoniem: Tot wanneer noemen we het niet meer "Hallucineren"? :)
Als we generatieve AI geen kunstmatige intelligentie meer noemen, misschien ;-)

Het was al eerder besloten de term KI alleen te gebruiken als het al bestaande medisch jargon, al hebben de meest psychotische ("hallucinerende") AI's wel degelijk hun charme. Kunnen inderdaad heel interessante conversaties mee gevoerd worden. Grote feitenkennis, zoals je van AI mag verwachten, al zijn de meesten nightly builds uit de garagebox. Maar zo zijn Gates en Jobs toch ook begonnen?
18-08-2024, 22:28 door Xavier Ohole
Door Anoniem: ChatGPT of een ander LLM heeft geen idee wat het tegen je zegt als het antwoord geeft.
Deze man legt uit hoe een LLM intern werkt (nogal verhelderend) en hoe het tot een antwoord komt.

https://www.youtube.com/watch?v=7esIw6_FVf0

Bedankt! Dat is een erg goede presentatie!
19-08-2024, 13:28 door Anoniem
Door Xavier Ohole:
Door Anoniem: ChatGPT of een ander LLM heeft geen idee wat het tegen je zegt als het antwoord geeft.
Deze man legt uit hoe een LLM intern werkt (nogal verhelderend) en hoe het tot een antwoord komt.

https://www.youtube.com/watch?v=7esIw6_FVf0

Bedankt! Dat is een erg goede presentatie!
Mee eens, die Gerben Wierda weet duidelijk waar hij het over heeft en hij weet het over te brengen. Bedankt, andere Anoniem, voor de verwijzing, en bedankt Xavier voor de klikbare hyperlink.
19-08-2024, 14:41 door Anoniem
Door Xavier Ohole:
Door Anoniem: ChatGPT of een ander LLM heeft geen idee wat het tegen je zegt als het antwoord geeft.
Deze man legt uit hoe een LLM intern werkt (nogal verhelderend) en hoe het tot een antwoord komt.

https://www.youtube.com/watch?v=7esIw6_FVf0

Bedankt! Dat is een erg goede presentatie!

Uiteindelijk weten mensen vaak (bij primaire reacties) ook niet wat ze zeggen. Maar beseffen naderhand wat ze gezegd hebben. Ik heb alleen ervaring met de chatfunctie van Bing (chatgpt), waarbij het mij vaak in een gesprekje lukt om door te bouwen op een onderwerp. Het taalmodel onthoudt blijkbaar wel waar het gesprek over gaat. En ik verbaas mij soms over de intelligentie waarmee het systeem gesprekken voert. Het heeft vast iets te maken met ten onrechte menselijke eigenschappen aan iets toe te schrijven.. Maar het kan ook dat we nog niet goed weten hoe een taalmodel werkt.
21-08-2024, 14:08 door Anoniem
Bedankt! Dat is een erg goede presentatie!

Uiteindelijk weten mensen vaak (bij primaire reacties) ook niet wat ze zeggen. Maar beseffen naderhand wat ze gezegd hebben. Ik heb alleen ervaring met de chatfunctie van Bing (chatgpt), waarbij het mij vaak in een gesprekje lukt om door te bouwen op een onderwerp. Het taalmodel onthoudt blijkbaar wel waar het gesprek over gaat. En ik verbaas mij soms over de intelligentie waarmee het systeem gesprekken voert. Het heeft vast iets te maken met ten onrechte menselijke eigenschappen aan iets toe te schrijven.. Maar het kan ook dat we nog niet goed weten hoe een taalmodel werkt.

Heldere uitleg idd. Over Gerben: Before that he was (amongst other things)

-Lead Architect of the Judiciary in The Netherlands:
-and Head of the forensic IT department of the Dutch Forensic Institute.

Misschien heeft hij ook een accountje bij meta.
21-08-2024, 16:16 door Anoniem
Door Anoniem:
Door Bitje-scheef: Ben nog steeds bezig met mijn HAL9000.

IBM - 1
Dan is het IBM9001 ;)
23-08-2024, 16:43 door Anoniem
Kunstmatige intelligentie beschuldigt onschuldige journalist van kindermisbruik. Een Duitse man werkte jarenlang als rechtbankverslaggever. De chatbot houdt de journalist verantwoordelijk voor de misdaden die hij versloeg.

Waarschijnlijk houdt Copilot de journalist per ongeluk verantwoordelijk voor de misdaden uit de rechtszaken waarvan hij verslag heeft gedaan. "AI-chatbots als Copilot werken op basis van een taalmodel", vertelt Laurens Naudts, die aan het AI, Media & Democracy Lab onderzoek doet naar de invloed van kunstmatige intelligentie op de samenleving. "Zo'n model gaat niet op zoek naar de waarheid, maar voorspelt aan de hand van data welk antwoord logisch zou klinken", legt Naudts uit. "Als de naam van die journalist op het internet heel vaak in combinatie met teksten over kindermisbruik voorkomt, kan AI per ongeluk antwoorden dat hij een kindermisbruiker is."

https://nos.nl/artikel/2534266-kunstmatige-intelligentie-beschuldigt-onschuldige-journalist-van-kindermisbruik
Reageren
Ondersteunde bbcodes
Bold: [b]bold text[/b]
Italic: [i]italic text[/i]
Underline: [u]underlined text[/u]
Quote: [quote]quoted text[/quote]
URL: [url]https://www.security.nl[/url]
Config: [config]config text[/config]
Code: [code]code text[/code]

Je bent niet en reageert "Anoniem". Dit betekent dat Security.NL geen accountgegevens (e-mailadres en alias) opslaat voor deze reactie. Je reactie wordt niet direct geplaatst maar eerst gemodereerd. Als je nog geen account hebt kun je hier direct een account aanmaken. Wanneer je Anoniem reageert moet je altijd een captchacode opgeven.