Dit artikel is oorspronkelijk gepubliceerd door BDTI. Het is hier herdrukt met toestemming van BDTI.

Toen we in 2011 de Embedded Vision Alliance lanceerden, deden we dat vanuit de overtuiging dat computervisie klaar was om een ​​alomtegenwoordige technologie te worden die zou worden gebruikt om tal van belangrijke, echte problemen op te lossen. En inderdaad, het was opwindend om de enorme bloei te zien van commerciële computervisietoepassingen die de afgelopen jaren is begonnen.

Deze snelle uitbreiding van op computervisie gebaseerde systemen en toepassingen wordt mogelijk gemaakt door vele factoren, waaronder vooruitgang in processors, sensoren en ontwikkelingstools. Maar het allerbelangrijkste dat de verspreiding van computervisie stimuleert, is ongetwijfeld diep leren.

Het feit dat op deep learning gebaseerde visuele waarneming buitengewoon goed werkt – routinematig betere resultaten behalen dan oudere, handgemaakte algoritmen – is uitgebreid besproken en goed gedocumenteerd. Wat minder algemeen wordt begrepen, maar even belangrijk is, is hoe de opkomst van deep learning het proces en de economie van het ontwikkelen van oplossingen en bouwsteentechnologieën voor commerciële computervisietoepassingen fundamenteel verandert.

Voorafgaand aan het wijdverbreide gebruik van deep learning in commerciële computer vision-applicaties, ontwikkelden ontwikkelaars zeer complexe, unieke algoritmen voor elke applicatie. Deze algoritmen waren meestal sterk afgestemd op de specifieke kenmerken van de toepassing, waaronder factoren zoals de kenmerken van de beeldsensor, de camerapositie en de aard van de achtergrond achter de interessante objecten. Het ontwikkelen, testen en afstemmen van deze algoritmen vergde vaak tientallen of zelfs honderden persoonsjaren werk. Zelfs als een bedrijf het geluk had over voldoende mensen met de juiste vaardigheden te beschikken, betekende de omvang van de vereiste inspanning dat slechts een klein deel van de potentiële computervisietoepassingen daadwerkelijk kon worden aangepakt.

Bij deep learning daarentegen hebben we de neiging om een ​​relatief klein handvol algoritmen opnieuw te gebruiken voor een breed scala aan toepassingen en beeldvormingsomstandigheden. In plaats van nieuwe algoritmen uit te vinden, hertrainen we bestaande, bewezen algoritmen. Als gevolg hiervan worden de algoritmen die worden ingezet in commerciële computer vision-systemen veel minder divers. Dit heeft twee belangrijke gevolgen.

Ten eerste is de economie van commerciële computervisietoepassingen en bouwsteentechnologieën fundamenteel veranderd. Neem bijvoorbeeld processoren. Vijf of tien jaar geleden was het bijna onmogelijk om een ​​gespecialiseerde processor te ontwikkelen om aanzienlijk betere prestaties en efficiëntie te leveren voor een breed scala aan computervisietaken, vanwege de extreme diversiteit aan computervisie-algoritmen. Tegenwoordig, met de focus voornamelijk op diep leren, is het erg praktisch om een ​​gespecialiseerde processor te creëren die de vision-workloads versnelt – en het is veel gemakkelijker voor investeerders om een ​​manier te zien waarop een dergelijke processor in grote hoeveelheden kan worden verkocht, voor een breed scala aan toepassingen.

Ten tweede is de aard van de ontwikkeling van computervisie-algoritmen veranderd. In plaats van jaren van inspanning te investeren in het ontwikkelen van nieuwe algoritmen, kiezen we tegenwoordig steeds vaker uit bewezen algoritmen uit de onderzoeksliteratuur, waarbij we ze misschien een beetje aanpassen aan onze behoeften. , gaat in commerciële toepassingen veel minder moeite om algoritmen te ontwerpen. Maar deep learning-algoritmen vereisen veel gegevens voor training en validatie. En niet zomaar gegevens. De gegevens moeten zorgvuldig worden samengesteld zodat de algoritmen een hoge mate van nauwkeurigheid kunnen bereiken. Er heeft dus een substantiële verschuiving plaatsgevonden in de focus van algoritme-gerelateerd werk in commerciële computer vision-toepassingen, van het bedenken van unieke algoritmen naar het verkrijgen van de juiste hoeveelheden van de juiste soorten trainingsgegevens.

In mijn adviesbureau, BDTI, hebben we dit heel duidelijk gezien in de aard van de projecten die onze klanten ons brengen. Een recent project illustreert dit. De klant, een fabrikant van consumentenproducten, wilde in drie maanden tijd een prototype van een product maken met op visie gebaseerde objectclassificatie. Het oorspronkelijke doel was om 20 klassen te identificeren. Hardware-ontwerp was geen probleem: sensoren en processors werden snel geïdentificeerd en geselecteerd. De ontwikkeling van algoritmen ging ook snel. De belangrijkste uitdaging was data. Om een ​​acceptabele nauwkeurigheid te bereiken, had het systeem een ​​grote hoeveelheid hoogwaardige, uiteenlopende gegevens nodig. Er waren geen geschikte data beschikbaar, dus de dataset moest helemaal opnieuw worden gemaakt. Maar niet zomaar alle gegevens zijn voldoende. Onze eerste stap was het ontwerpen van een data-capture-installatie die de juiste soorten afbeeldingen zou produceren. Hier leidde een goed begrip van camerakenmerken, perspectief en belichting tot gedetailleerde specificaties voor de data-capture-rig.

De moeilijkheid bij het maken van deze dataset werd verergerd door de eis dat het systeem onderscheid moest maken tussen klassen die voor mensen moeilijk te onderscheiden zijn. In dit soort situaties is het verzamelen van trainings- en validatiegegevens van cruciaal belang om een ​​acceptabele nauwkeurigheid te bereiken. Voor dit project hebben we, naast het specificeren van de data capture rig, verschillende stappen ondernomen om succes te garanderen. We hebben de klant bijvoorbeeld gedetailleerde instructies gegeven voor het vastleggen van gegevens, inclusief het variëren van perspectief en verlichting op specifieke manieren. We specificeerden ook dat we ander personeel moesten inzetten om de items voor te bereiden en te positioneren en vroegen domeinexperts om input om ervoor te zorgen dat de gegevens realistisch waren. De vastgelegde gegevens werden vervolgens zorgvuldig beoordeeld, waarbij ongeschikte afbeeldingen werden afgewezen.

Waar het hier om gaat, wat niemand van ons zou moeten verbazen, is dat hoewel deep learning een geweldige, krachtige technologie is, het dat niet is. een toverstaf. Er is nog veel werk nodig om een ​​robuuste computervisie-oplossing te ontwikkelen – en het is grotendeels een ander soort werk dan wat nodig was met behulp van traditionele vision-algoritmen. Als u wilt ontdekken hoe BDTI uw bedrijf kan helpen sneller en efficiënter een deep learning-oplossing voor uw toepassing te creëren, neem dan contact op touch.

Jeff Bier
Algemeen voorzitter, Embedded Vision Summit
Oprichter, Embedded Vision Alliance
Voorzitter, BDTI

0

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *