Nieuws

Onderzoek: zelfs de beste AI-chatbots hallucineren vaak

donderdag 15 augustus 2024, 12:05 door Redactie, 26 reacties

Zelfs de beste AI-chatbots hallucineren vaak, wat laat zien dat de uitvoer nog niet volledig is te vertrouwen, zo stellen onderzoekers van verschillende universiteiten en het Allen Institute for Artificial Intelligence. Voor hun onderzoek ontwikkelden de onderzoekers een benchmark genaamd WildHallucinations waarmee ze keken of wat AI-chatbots vertellen wel klopt. Voor het onderzoek moesten de AI-chatbots allerlei vragen beantwoorden die ook door gebruikers gesteld zouden kunnen worden (pdf).

Daarbij gebruikten de onderzoekers voor ongeveer van de helft van de vragen onderwerpen die geen Wikipedia-pagina hebben. De meeste AI-chatbots zijn getraind met Wikipedia-data. Eén van de taalmodellen die goed presteerde was Claude 3 Haiku, maar dat kwam mede doordat de chatbot maar 72 procent van de vragen beantwoordde. Vragen waarop de chatbot geen antwoord weet werden niet beantwoord. Daarnaast maakt ook het onderwerp veel uit. Zo blijkt taalmodel Mistral-7B bij het onderwerp 'mensen' in meer dan veertig procent van de antwoorden te hallucineren.

Volgens de onderzoekers is het hallucineren een probleem als gebruikers de uitvoer van de chatbots vertrouwen. "De belangrijkste conclusie van ons onderzoek is dat we de uitvoer van model generations nog niet volledig kunnen vertrouwen", zegt onderzoeker Wenting Zhao tegenover TechCrunch. "Op dit moment kunnen zelfs de beste modellen in slechts 35 procent van de gevallen hallucinatievrije tekst genereren."

NIST-encryptiestandaarden moeten aanval quantumcomputer weerstaan

Cisco ontslaat duizenden medewerkers, legt focus op AI en cybersecurity

Reacties (26)

Reageer met quote

15-08-2024, 12:46 door Anoniem

En dan is natuurlijk een interessante vervolgvraag hoe vaak een menselijke 'expert' te vertrouwen is. Iets te vaak zijn experts (geheel volgens het Peter-principle) vooral bezig te zorgen dat anderen niet door hebben dat ze het eigenlijk ook niet weten. Dure woorden, wollig taalgebruik en eigenlijk geen concrete antwoorden. Mij valt altijd wel de absolute zekerheid op waarmee bijv. ChatGPT de grootste onzin kan verkopen. Dan valt een menselijke hallucinator wellicht eerder door de mand.

Reageer met quote

15-08-2024, 13:20 door Bitje-scheef

Om dit te "verfijnen" gaat nog wel even duren denk ik. We staan eigenlijk nog steeds in de kinderschoenen met AI projecten. Ook al ziet het er bemoedigend uit.

Ben nog steeds bezig met mijn HAL9000.

Reageer met quote

15-08-2024, 13:50 door Anoniem

Door Bitje-scheef: Ben nog steeds bezig met mijn HAL9000.

IBM - 1

Reageer met quote

15-08-2024, 13:54 door Anoniem

Ik heb er zelf ook last van, al zolang als ik internep. Hallucineren. En dat is echt al heel erg lang. Als ik gewoon een email krijg, dan is mijn eerste gedachte dat het om een aardig iemand gaat. Komt waarschijnlijk ook omdat ik er gevoelig voor ben dat ik aandacht krijg. Maar soms zijn het totale kloodtzakken. Waar je dan nog vriendelijk tegen gaat zitten wezen ook. Is feitelijk ook een vorm van hallucineren. Je ziet de persoon aan de andere kant niet. Je mist alle lichaamstaal. Je koppie vormt zich er gelijk een positief beeld bij. Op zich niet slecht om alles positief te blijven zien. Maar af en toe zit mijn koppie er helemaal naast. Met kunstmatige beeldvorming.

Mensen zonder zelfkennis kunnen AI beter niet gebruiken. Ze waren al lui en negatief, verwachten dat dit nu eindelijk eens alles voor ze oplost. En dan willen ze er nog geld aan verdienen ook. Maar dat moet iemand anders maar voor ze oplossen dan. Omdat het voor die ander toch heel gemakkelijk is, iets met een app of zo, dus mag niks kosten ook.

AI is een heel geinig nieuw hulpmiddel. Maar je moet wel willen leren fietsen. Anders ga je op je bek.

Reageer met quote

15-08-2024, 14:38 door Anoniem

Door Bitje-scheef: Om dit te "verfijnen" gaat nog wel even duren denk ik. We staan eigenlijk nog steeds in de kinderschoenen met AI projecten. Ook al ziet het er bemoedigend uit.

Ben nog steeds bezig met mijn HAL9000.

Het probleem hierbij is dat dat verfijnen vaak meer schade aan het model doet dan goed.
We moeten tig keer tegen klanten van onze toepassingen zeggen dat we niet alle hallucinaties kunnen stoppen tenzij we de scope van het model aanzienlijk verkleinen. Vaak de teugels laten vieren betekent wel meer gevarieerde hallucinatie maar tegelijk ook minder vaak dat het voorkomt.

Je kunt dit zelf testen door een spelling check A.I te pakken. Gooi er een groot genoeg lap tekst in en je zult een loop gaan zien waarbij de A.I. een woord wil vervangen met een ander woord en vervolgens dat woord weer met het vorige woord wil vervangen. Beide kloppen technisch maar niet in gramaticale toepassing en als je de 1 verbied dan gaat er veel meer naar de knoppen. Dus je kiest voor 1 van de foute of je herschrijft het geheel.

Een beetje zoals je ook site metrics moet benaderen. Je kan giga er bovenop zitten, zodat je page speed etc. hoog is, maar als je 1 waarde dan heel laag hebt zitten wat je niet hoger kan krijgen door site functionaliteiten gaat je totaal gemiddelde hoe dan ook naar de knoppen. Of je kan genuanceerder optimaliseren waardoor het gemiddelde over de gehele linie hoger ligt. Eerste is natuurlijk technisch beter maar leg maar aan een klant uit waarom die gemiddelde 35% score toch echt beter is dan de 70%.die je ze door kan sturen.

Reageer met quote

15-08-2024, 14:44 door Anoniem

Ik ben dol op AI, (al is de afkorting "AI onzin aangezien het hier niet gaat om kunstmatige instelligentie maar om een algoritme in de vorm van een soort zoekmachine) ik draai het op zowel mijn PC als telefoon en tablet.
Ik draai alleen offline software en AI-modellen gebaseerd op vrije software.
Mijn Tensor G2+8GB werkgeheugen kan het wel aardig aan met modellen tot 7B parameters.
Meestal draai ik niet hoger dan 4-5bit modellen, anders wordt het te traag.
Ook mijn Ryzen 5 4500U (integrated GPU) vind het wel okee zolang ik meer VRAM toewijs via de UMA framebuffer.
Daarnaast heb ik lekker snel 64GB werkgeheugen, (met vermindering van geheugen via de UMA framebuffer) en een snelle SSD.
Ook GNU/Linux gaat er goed mee om.
Daarnaast houd ik niet van censuur, dus draai ik ongecensureerde modellen, ik vindt het super irritant om in "discussie" te gaan met mijn computers om daar omheen te werken, als ik bijv. sappige grappen wil horen of de AI denkt dat ik iets serieus meen wil ik gewoon waar mijn computer voor bedoeld is; mijn commando's opvolgen, dat ding is er voor mij, niet andersom.

Reageer met quote

15-08-2024, 15:15 door Anoniem

Kern van het probleem is dat de eindgebruiker gewoon vertrouwd wat een computersysteem uit spuugt. Hoeveel procent van de excel sheets waar bedrijven beleid op bepalen bevatten ook grote fouten en toch draaien bedrijven door.

Reageer met quote

15-08-2024, 15:22 door Anoniem

Meeste llm zijn getraind met wiki data. Dat is mooi te zien met Bing search.

Type één zoek argument in met het trefwoord “wiki” toegevoegd en klik de zoeken knop. Dan zie je tussen de resultaten de wiki pagina in de top 10 en enkele tellen later begint copilot rechts op de pagina precies dezelfde data te “genereren”. Alleen dit AI resultaat is tot 7 keer meer energiebelastend dan de normale zoekfunctie.

Reageer met quote

15-08-2024, 16:01 door Anoniem

Door Anoniem: Ik ben dol op AI, (al is de afkorting "AI onzin aangezien het hier niet gaat om kunstmatige instelligentie maar om een algoritme in de vorm van een soort zoekmachine) ik draai het op zowel mijn PC als telefoon en tablet.
Ik draai alleen offline software en AI-modellen gebaseerd op vrije software.
Mijn Tensor G2+8GB werkgeheugen kan het wel aardig aan met modellen tot 7B parameters.
Meestal draai ik niet hoger dan 4-5bit modellen, anders wordt het te traag.
Ook mijn Ryzen 5 4500U (integrated GPU) vind het wel okee zolang ik meer VRAM toewijs via de UMA framebuffer.
Daarnaast heb ik lekker snel 64GB werkgeheugen, (met vermindering van geheugen via de UMA framebuffer) en een snelle SSD.
Ook GNU/Linux gaat er goed mee om.
Daarnaast houd ik niet van censuur, dus draai ik ongecensureerde modellen, ik vindt het super irritant om in "discussie" te gaan met mijn computers om daar omheen te werken, als ik bijv. sappige grappen wil horen of de AI denkt dat ik iets serieus meen wil ik gewoon waar mijn computer voor bedoeld is; mijn commando's opvolgen, dat ding is er voor mij, niet andersom.

Precies! De verantwoordelijkheid moet bij gebruikers liggen en niet computers, zodra computers verantwoordelijkheden gaan dragen voor mensen en hetgeen dat mensen er mee doen is het eind zoek.
Er zjn gewoon wetten in plaats om het daadwerkelijk uitvoeren van fantasieën te voorkomen.
Anders zouden we ook horrorfilms moeten opzeggen, deze geven immers ook voorbeelden van bijv. geweld en gruwel, evenals lectuur zoals boeken.
Vrijheid van meningsuiting en spraak, en al helemaal n de privésfeer moet intact blijven.
Daarnaast is code als vrije spraak.

Reageer met quote

15-08-2024, 17:10 door Anoniem

AI hoef je niet zo kwaad af te schilderen.

Geweldig hulpmiddel voor taalanalyse.
Heeft nog wat last van de Amerikaans-Engelse inregeling,
die het met de- en het-woorden wel eens te veel wordt,
concrete van abstracte voorbeelden te onderscheiden.

Geef het ontwikkeltijd. Hopelijk wordt het niet door
krachten achter de schermen gebruikt tegen hun product,
de consumerende mens via Big Commerce en IT.

#laufer

Reageer met quote

15-08-2024, 20:14 door Anoniem

Het probleem blijft dat AI door mensen wordt ontwikkeld... Die zijn over het algemeen ook vrij geschift.. :-)

Reageer met quote

15-08-2024, 23:10 door Anoniem

ChatGPT of een ander LLM heeft geen idee wat het tegen je zegt als het antwoord geeft.
Deze man legt uit hoe een LLM intern werkt (nogal verhelderend) en hoe het tot een antwoord komt.

https://www.youtube.com/watch?v=7esIw6_FVf0

Voor een heleboel dingen is het leuk te gebruiken, maar erop vertrouwen is niet verstandig

Reageer met quote

16-08-2024, 10:12 door Anoniem

Zo blijkt taalmodel Mistral-7B bij het onderwerp 'mensen' in meer dan veertig procent van de antwoorden te hallucineren.

Ok maar is dat niet hetzelfde als wanneer je het een 'mensen' vraagt?
Als je ziet wat sommige mensen vertellen over bepaalde niet aan stricte logica onderhevige onderwerpen dan vraag je je ook af hoe ze dat kunnen...
Als je kunstmatige intelligentie gaat ontwikkelen, moet dat dan lijken op menselijke intelligentie, of moet je een perfecte vraagbaak ontwikkelen die zich niet als een mens gedraagt?
Voor beiden zal wel iets te zeggen zijn, maar ik denk dat die 2e eerder als onbruikbaar en ongeloofwaardig gezien wordt dan die eerste...

Reageer met quote

16-08-2024, 10:18 door Anoniem

Tot wanneer noemen we het niet meer "Hallucineren"? :)

Reageer met quote

16-08-2024, 13:22 door Anoniem

Door Anoniem: Tot wanneer noemen we het niet meer "Hallucineren"? :)

Zodra we aan het taalgebruik gewend zijn.

Reageer met quote

16-08-2024, 18:38 door Anoniem

Wat ik nog even wil aanvullen aan mijn eerdere reactie is dat ik, bij goed gebruik en juiste vraagstelling, tot nu toe best onder de indruk ben van de chatbots. Vooral in de beginperiode van de chatfunctie van Bing heb ik interessantere gesprekjes gevoerd dan doorgaans in de kroeg :-)

Reageer met quote

17-08-2024, 06:58 door Anoniem

Door Anoniem: Tot wanneer noemen we het niet meer "Hallucineren"? :)

Als we generatieve AI geen kunstmatige intelligentie meer noemen, misschien ;-)

Reageer met quote

17-08-2024, 12:34 door Anoniem

Door Anoniem:

Door Anoniem: Tot wanneer noemen we het niet meer "Hallucineren"? :)

Als we generatieve AI geen kunstmatige intelligentie meer noemen, misschien ;-)

Het was al eerder besloten de term KI alleen te gebruiken als het al bestaande medisch jargon, al hebben de meest psychotische ("hallucinerende") AI's wel degelijk hun charme. Kunnen inderdaad heel interessante conversaties mee gevoerd worden. Grote feitenkennis, zoals je van AI mag verwachten, al zijn de meesten nightly builds uit de garagebox. Maar zo zijn Gates en Jobs toch ook begonnen?

Reageer met quote

18-08-2024, 22:28 door Xavier Ohole

Door Anoniem: ChatGPT of een ander LLM heeft geen idee wat het tegen je zegt als het antwoord geeft.
Deze man legt uit hoe een LLM intern werkt (nogal verhelderend) en hoe het tot een antwoord komt.

https://www.youtube.com/watch?v=7esIw6_FVf0

Bedankt! Dat is een erg goede presentatie!

Reageer met quote

19-08-2024, 13:28 door Anoniem

Door Xavier Ohole:

Bedankt! Dat is een erg goede presentatie!

Mee eens, die Gerben Wierda weet duidelijk waar hij het over heeft en hij weet het over te brengen. Bedankt, andere Anoniem, voor de verwijzing, en bedankt Xavier voor de klikbare hyperlink.

Reageer met quote

19-08-2024, 14:41 door Anoniem

Door Xavier Ohole:

Bedankt! Dat is een erg goede presentatie!

Uiteindelijk weten mensen vaak (bij primaire reacties) ook niet wat ze zeggen. Maar beseffen naderhand wat ze gezegd hebben. Ik heb alleen ervaring met de chatfunctie van Bing (chatgpt), waarbij het mij vaak in een gesprekje lukt om door te bouwen op een onderwerp. Het taalmodel onthoudt blijkbaar wel waar het gesprek over gaat. En ik verbaas mij soms over de intelligentie waarmee het systeem gesprekken voert. Het heeft vast iets te maken met ten onrechte menselijke eigenschappen aan iets toe te schrijven.. Maar het kan ook dat we nog niet goed weten hoe een taalmodel werkt.

Reageer met quote

21-08-2024, 14:08 door Anoniem

Bedankt! Dat is een erg goede presentatie!

Uiteindelijk weten mensen vaak (bij primaire reacties) ook niet wat ze zeggen. Maar beseffen naderhand wat ze gezegd hebben. Ik heb alleen ervaring met de chatfunctie van Bing (chatgpt), waarbij het mij vaak in een gesprekje lukt om door te bouwen op een onderwerp. Het taalmodel onthoudt blijkbaar wel waar het gesprek over gaat. En ik verbaas mij soms over de intelligentie waarmee het systeem gesprekken voert. Het heeft vast iets te maken met ten onrechte menselijke eigenschappen aan iets toe te schrijven.. Maar het kan ook dat we nog niet goed weten hoe een taalmodel werkt.

Heldere uitleg idd. Over Gerben: Before that he was (amongst other things)

-Lead Architect of the Judiciary in The Netherlands:
-and Head of the forensic IT department of the Dutch Forensic Institute.

Misschien heeft hij ook een accountje bij meta.

Reageer met quote

21-08-2024, 16:16 door Anoniem

Door Anoniem:

Door Bitje-scheef: Ben nog steeds bezig met mijn HAL9000.

IBM - 1

Dan is het IBM9001 ;)

Reageer met quote

23-08-2024, 16:43 door Anoniem

Kunstmatige intelligentie beschuldigt onschuldige journalist van kindermisbruik. Een Duitse man werkte jarenlang als rechtbankverslaggever. De chatbot houdt de journalist verantwoordelijk voor de misdaden die hij versloeg.

Waarschijnlijk houdt Copilot de journalist per ongeluk verantwoordelijk voor de misdaden uit de rechtszaken waarvan hij verslag heeft gedaan. "AI-chatbots als Copilot werken op basis van een taalmodel", vertelt Laurens Naudts, die aan het AI, Media & Democracy Lab onderzoek doet naar de invloed van kunstmatige intelligentie op de samenleving. "Zo'n model gaat niet op zoek naar de waarheid, maar voorspelt aan de hand van data welk antwoord logisch zou klinken", legt Naudts uit. "Als de naam van die journalist op het internet heel vaak in combinatie met teksten over kindermisbruik voorkomt, kan AI per ongeluk antwoorden dat hij een kindermisbruiker is."

https://nos.nl/artikel/2534266-kunstmatige-intelligentie-beschuldigt-onschuldige-journalist-van-kindermisbruik

Reageer met quote

26-08-2024, 12:43 door Anoniem

Door Anoniem:

Door Bitje-scheef: Ben nog steeds bezig met mijn HAL9000.

IBM - 1

Dan is het IBM9001 ;)

Of IBM:111... -1 ( ascii/utf symbolset)

Reageer met quote

26-08-2024, 12:48 door Anoniem

Door Anoniem: Kunstmatige intelligentie beschuldigt onschuldige journalist van kindermisbruik. Een Duitse man werkte jarenlang als rechtbankverslaggever. De chatbot houdt de journalist verantwoordelijk voor de misdaden die hij versloeg.

https://nos.nl/artikel/2534266-kunstmatige-intelligentie-beschuldigt-onschuldige-journalist-van-kindermisbruik

Daaruit blijkt al de voor zover er intelligentie aanwezig zou zijn dat het op z'n best rudimentair is.

Een betere naam voor chatgpt zou " Sir Guess a. Lot" zijn.
Vanwege het raadplegen van de random generator.

Reageren

Ondersteunde bbcodes

Bold: [b]bold text[/b]

Italic: [i]italic text[/i]

Underline: [u]underlined text[/u]

Quote: [quote]quoted text[/quote]

URL: [url]https://www.security.nl[/url]

Config: [config]config text[/config]

Code: [code]code text[/code]

Je bent niet ingelogd en reageert "Anoniem". Dit betekent dat Security.NL geen accountgegevens (e-mailadres en alias) opslaat voor deze reactie. Je reactie wordt niet direct geplaatst maar eerst gemodereerd. Als je nog geen account hebt kun je hier direct een account aanmaken. Wanneer je Anoniem reageert moet je altijd een captchacode opgeven.

Bankieren:

Vacature

Chief Information Security Officer

Word Chief Information Security Officer bij Provincie Utrecht! Jij zet informatieveiligheid op de kaart, adviseert over risico’s en borgt compliance. Werk aan ‘Security by Design’ en til de digitale veiligheid naar een hoger niveau. Klaar om impact te maken? Solliciteer nu!

Lees meer

Vacature

Cybersecurity Trainer / Full Stack Developer

bij Certified Secure

Ben je toe aan een nieuwe nieuwe job waarmee je het verschil maakt? Wil jij je security kennis graag delen en hands-on laten zien hoe cybersecurity in de praktijk echt werkt? Werk je net als wij graag samen met enthousiaste en gedreven collega's? Bij ons geen bureaucratie maar open communicatie en een werkomgeving gericht op samenwerking.

Lees meer

Kan mijn werkgever mij verplichten een gps-tracker in mijn eigen auto te installeren?

26-03-2025 door Arnoud Engelfriet

Juridische vraag: Ik rij zo’n 1500 zakelijke kilometers per week en krijg daar van mijn werkgever ook netjes een ...

42 reacties

Lees meer

Vacature

Junior DevOps Engineer

Certified Secure is op zoek naar een Junior DevOps Engineer. Deze functie is een stuk interessanter dan de term doet vermoeden! Om jou als potentiële nieuwe collega meteen te laten zien wat we doen hebben we speciaal voor jou een selectie gemaakt van een aantal leuke security challenges. Are you ready for a challenge?

Lees meer

Security.NL - X

10-01-2024 door Redactie

Altijd meteen op de hoogte van het laatste security nieuws? Volg ons ook op X!

Lees meer

Onderzoek: zelfs de beste AI-chatbots hallucineren vaak

Je reactie is verstuurd en wordt zo spoedig mogelijk gemodereerd.

Bankieren:

Wachtwoord Vergeten

Password Reset

Registreren