Twee groepen wetenschappers die onafhankelijk van elkaar werkten hebben naar eigen zeggen een doorbraak in beeldherkenningssoftware gerealiseerd, waarbij de software in staat is om foto's en video's veel nauwkeuriger te omschrijven dan voorheen mogelijk was.
Het gaat om onderzoekteams van Google en de Stanford Universiteit. Traditionele beeldherkenningssoftware was alleen in staat om individuele objecten te herkennen, maar de nieuwe software kan zichzelf aanleren om volledige scenario's te herkennen en te omschrijven. Het gaat dan om scenario's zoals "zwart-witte hond springt over een balk" en "man in een blauw wetsuit surft over een golf". De software van de Universiteit van Stanford kijkt naar verschillende objecten in de afbeelding en voorziet die van een tekst. Vervolgens wordt er naar een compatibele zin gekeken.
De onderzoekers van Google stellen in hun onderzoeksrapport (PDF) dat het systeem op een neuraal netwerk is gebaseerd dat zichzelf kan trainen. Als de datasets met omschrijvingen van afbeeldingen zullen toenemen, zal dat ook voor de prestaties van het systeem gelden. Door de ontwikkelingen kan het mogelijk worden om miljarden online foto's en video's te catalogiseren die nu vaak van een slechte omschrijving zijn voorzien. Ook zijn zoekmachines nu nog afhankelijk van de tekst bij een foto en video voor de indexering, maar straks zou beeldherkenningssoftware deze tekst zelf kunnen genereren, zo meldt de New York Times.
Deze posting is gelocked. Reageren is niet meer mogelijk.