image

NYT: Google en OpenAI trainden AI met transcripties van YouTube-video's

maandag 8 april 2024, 13:49 door Redactie, 4 reacties

Google en OpenAI hebben transcripties van YouTube-video's gebruikt voor het trainen van AI-modellen, zo meldt The New York Times op basis van bronnen. Voor het trainen van AI-modellen zijn grote hoeveelheden data nodig en de techbedrijven vonden in YouTube een nieuwe databron. Bronnen laten aan de Amerikaanse krant weten dat OpenAI een spraakherkenningstool genaamd Whisper ontwikkelde die transcripties van YouTube-video's kon maken.

Op deze manier verwerkte OpenAI meer dan een miljoen uur aan YouTube-video's, aldus de bronnen. Ook Google gebruikte YouTube-transcripties voor het trainen van het eigen AI-model. Sommige Google-medewerkers wisten dat OpenAI YouTube-video's aan het scrapen was als databron. Google wilde hier echter niet tegen optreden, omdat het gebruik van YouTube-transcripties mogelijk in strijd met het copyright van YouTube-makers is.

Door op te treden tegen OpenAI zou er misschien ook kritiek op Googles werkwijze komen, zo laten de bronnen verder weten. In een reactie tegenover The New York Times verklaart Google dat het niet bekend is met het scrapen van YouTube-video's door OpenAI en dat dit ook verboden is. Wat betreft het gebruik van YouTube-video's erkent Google dat het 'YouTube-content' heeft gebruikt binnen de voorwaarden die het met YouTube-makers heeft, zo laat The Verge weten.

Naast Google en OpenAI keek ook Meta naar databronnen die het kon gebruiken. Uit interne opnames waarover The New York Times beschikt blijkt dat managers, advocaten en engineers onder andere bespraken hoe ze auteursrechtelijk beschermd werk op internet zonder toestemming konden gebruiken, ook al zouden er dan rechtszaken komen. Het onderhandelen over licenties met rechthebbenden zou namelijk te lang duren, zo werd er gesteld.

Reacties (4)
08-04-2024, 15:05 door Anoniem
Ach, META kocht een VPN service om onrechtmatig data te verzamelen; dus hier kijkt niemand meer van op.
08-04-2024, 15:22 door Anoniem
Die transcripties zijn behoorlijk beroerd...
08-04-2024, 19:16 door Anoniem
Garbage in, garbage out. Ehm, klopt.
08-04-2024, 21:15 door Anoniem
Door Anoniem: Die transcripties zijn behoorlijk beroerd...

Het OpenAI dat Google aan het publiek presenteert, een minder AI is dan elders op de plank ligt.

Er is een menselijk Google account nodig om videomateriaal van goede transcripties en ondertiteling te voorzien. Maar Google betaalt dit vrijwilligerswerk niet. Dan moet je je boodschap wel heel belangrijk vinden, en de profilering en het zoekalgoritme van YT dusdanig vertrouwen, om daar om daar tijd in te investeren.

Ik zie nog wel gebeuren dat YT of Google de weg gaat volgen van voorheen Twitter. En wat voor een easter eggs ex-google medewerkers nog verstopt hebben. Bij Twitter werd het ook een bende, maar het bestaat nog steeds.
Reageren
Ondersteunde bbcodes
Bold: [b]bold text[/b]
Italic: [i]italic text[/i]
Underline: [u]underlined text[/u]
Quote: [quote]quoted text[/quote]
URL: [url]https://www.security.nl[/url]
Config: [config]config text[/config]
Code: [code]code text[/code]

Je bent niet en reageert "Anoniem". Dit betekent dat Security.NL geen accountgegevens (e-mailadres en alias) opslaat voor deze reactie. Je reactie wordt niet direct geplaatst maar eerst gemodereerd. Als je nog geen account hebt kun je hier direct een account aanmaken. Wanneer je Anoniem reageert moet je altijd een captchacode opgeven.