Robots hebben hulp nodig bij het omgaan met hun omgeving

Oostende/REX/Shutterstock

Computervisie is klaar voor de volgende grote test: zien in 3D. De ImageNet Challenge, die de ontwikkeling van beeldherkenningsalgoritmen heeft gestimuleerd, wordt volgend jaar vervangen door een nieuwe competitie die robots moet helpen de wereld in al haar diepte te zien.

Sinds 2010 hebben onderzoekers algoritmen voor beeldherkenning getraind in de ImageNet-database, een set van meer dan 14 miljoen afbeeldingen die met de hand zijn gelabeld met informatie over de objecten die ze weergeven. De algoritmen leren de objecten op de foto's in te delen in verschillende categorieën, zoals huis, biefstuk of Elzasser. Bijna alle computer vision-systemen worden op deze manier getraind voordat ze worden verfijnd op een meer specifieke set afbeeldingen voor verschillende taken.

Elk jaar proberen deelnemers aan de ImageNet Large Scale Visual Recognition Challenge algoritmen te coderen die dat wel kunnen. categoriseer deze afbeeldingen met zo min mogelijk fouten. Zeven jaar geleden was dit een moeilijke taak, maar nu is computervisie geweldig in het categoriseren van afbeeldingen.

In 2015 bouwde een team van Microsoft een systeem dat meer dan 95 procent nauwkeurig was en voor het eerst in de geschiedenis van de uitdaging de menselijke prestaties overtrof. En met foto-apps van Google en Apple kunnen mensen hun fotocollecties doorzoeken met termen als eten of baby. Google Foto's classificeert afbeeldingen zelfs op abstracte concepten zoals 'geluk'.

“Toen we met het project begonnen, waren dit nog geen dingen die de industrie had gedaan”, zegt Alex Berg van de University of North Carolina in Chapel Hill, een van de organisatoren van de wedstrijd. “Nu zijn het producten die miljoenen mensen gebruiken.”

Introductie van de echte wereld

Dus het ImageNet-team zegt dat het tijd is voor een nieuwe uitdaging in 2018. Hoewel de details hiervan concurrentie moet nog worden beslist, het zal een probleem aanpakken dat computervisie nog moet beheersen: systemen maken die objecten in de echte wereld kunnen classificeren, niet alleen in 2D-beelden, en ze kunnen beschrijven met behulp van natuurlijke taal.

“Er is heel weinig werk aan het omzetten van een 3D-scène door een machine learning-algoritme”, zegt Victor Prisacariu van de Universiteit van Oxford. Door een grote database met afbeeldingen te bouwen, compleet met 3D-informatie, kunnen robots worden getraind om objecten om hen heen te herkennen en de beste route uit te stippelen om ergens te komen. Deze database zou grotendeels bestaan ​​uit afbeeldingen van scènes in huizen en andere gebouwen.

De bestaande ImageNet-database bestaat uit afbeeldingen die via internet zijn verzameld en vervolgens met de hand zijn gelabeld, maar deze missen de diepte-informatie die nodig is om een ​​3D-scène te begrijpen. De database voor de nieuwe competitie zou kunnen bestaan ​​uit digitale modellen die real-world omgevingen nabootsen of 360-gradenfoto's met diepte-informatie, zegt Berg. Maar eerst moet iemand deze beelden maken. Omdat dit moeilijk en kostbaar is, is de dataset waarschijnlijk een stuk kleiner dan die voor de oorspronkelijke uitdaging.

Robotvisie is klaar voor zijn ImageNet-moment, zegt Andrew Davison van Imperial College London. Hij werkt al aan de volgende generatie in-home robots die het over zal nemen van apparaten als de vloerreinigende Roomba. Deze zullen moeten weten hoe ze met objecten moeten omgaan en de wereld om hen heen moeten manipuleren, zegt hij. “Ik denk echt dat je dit gedetailleerde 3D-begrip nodig hebt, zowel van de vorm van de wereld, als een semantisch begrip van wat erin zit”, zegt hij.

De nieuwe uitdaging zal ook augmented en virtual reality helpen, zegt Davison. Als u weet waar objecten zich in de echte wereld bevinden, kunnen augmented reality-systemen zoals de Microsoft HoloLens virtuele objecten daarin weergeven. “Het is vrijwel hetzelfde vermogen”, zegt hij.

Berg verwacht geen grote vooruitgang in de eerste paar jaar van de nieuwe uitdaging, maar hij heeft een idee van hoe succes eruit zou kunnen zien. Uiteindelijk wil hij robots zien die de omgeving om hen heen consequent kunnen begrijpen en uitleggen wat ze zien, net zo goed als een mens. Het duurt echter meer dan vijf jaar om een ​​van deze dingen te bereiken, zegt hij.

0

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *