Deze blogpost is oorspronkelijk gepubliceerd op de website van Xailient. Het is hier herdrukt met toestemming van Xailient.

Er zijn een aantal veelvoorkomende problemen met objectdetectie. Kan uw objectdetector bijvoorbeeld mensen en paarden detecteren in de volgende afbeelding?

Mensen op paarden (Foto door Paul Chambers op Unsplash)

Wat als dezelfde afbeelding 90 wordt gedraaid graden? Kan het nu mensen en paarden detecteren?


Mensen op paarden (Foto door Paul Chambers op Unsplash)

Of een kat in deze afbeeldingen?

We hebben een lange weg afgelegd in de vooruitgang van computervisie. Algoritmen voor objectdetectie die gebruikmaken van kunstmatige intelligentie (AI) hebben bij bepaalde taken beter gepresteerd dan mensen.

Maar waarom is het nog steeds een uitdaging om een ​​persoon te detecteren als het beeld 90 graden is gedraaid, een kat in een ongebruikelijke positie ligt , of is een object slechts gedeeltelijk zichtbaar?

Sinds AlexNet in 2012 zijn er veel modellen gemaakt voor objectdetectie en classificatie en ze worden steeds beter in termen van nauwkeurigheid en efficiëntie. De meeste modellen zijn echter getraind en getest in ideale scenario's.

In werkelijkheid is het scenario waarin deze modellen worden gebruikt niet altijd ideaal: de achtergrond kan rommelig zijn, het object kan vervormd zijn, of misschien afgesloten.

Neem het voorbeeld van de afbeeldingen van de kat hieronder. Elke objectdetector die is getraind om een ​​kat te detecteren, zal zonder problemen de kat in de afbeelding aan de linkerkant detecteren. Maar voor de afbeelding aan de rechterkant kunnen de meeste detectoren de kat niet detecteren.

Taken die voor mensen als triviaal worden beschouwd, vormen zeker een uitdaging in computervisie. Het is gemakkelijk voor ons mensen om een ​​persoon te identificeren, ongeacht de beeldoriëntatie, of een kat in verschillende poses, of een kopje bekeken vanuit elke hoek.

Laten we eens kijken naar enkele veelvoorkomende problemen met objectdetectie .

6 Problemen met objectdetectie

1. Variatie van gezichtspunt

Een object dat vanuit verschillende hoeken wordt bekeken, kan er totaal anders uitzien. Neem het voorbeeld van een eenvoudige kop (verwijzend naar de afbeeldingen hieronder).

De eerste afbeelding, met een bovenaanzicht van een kopje met zwarte koffie erin, ziet er totaal anders uit dan de tweede afbeelding met een zij- en bovenaanzicht van een kopje met een cappuccino, en de derde afbeelding met een zijaanzicht van het kopje.

Dit is een van de uitdagingen bij objectdetectie, omdat de meeste detectoren alleen worden getraind met beelden vanuit een bepaald gezichtspunt.

2. Vervorming

Veel interessante objecten zijn geen starre lichamen en kunnen op extreme manieren worden vervormd. Laten we als voorbeeld eens kijken naar onderstaande afbeeldingen van yogi's in verschillende posities.
Als de objectdetector is getraind om een ​​persoon te detecteren met een training waarbij alleen een persoon zit, staat of loopt, kan hij mogelijk geen mensen in deze afbeeldingen detecteren, omdat de functies in deze afbeeldingen mogelijk niet overeenkomen met de functies die hij heeft geleerd over tijdens de training.

3. Occlusie

De objecten van belang kunnen worden afgesloten. Soms is slechts een klein deel van een object (slechts een paar pixels) zichtbaar.


Vrouw met een beker (Foto door Alisa Anton op Unsplash)

In de bovenstaande afbeelding wordt het object (beker) bijvoorbeeld afgesloten door de persoon die de beker vasthoudt. Wanneer we slechts een deel van een object zien, kunnen we in de meeste gevallen onmiddellijk identificeren wat het is. Objectdetectoren werken echter niet op dezelfde manier.

Een ander voorbeeld van occlusie in beelden is waar een persoon een mobiele telefoon vasthoudt. Het is een uitdaging voor objectdetectoren om mobiele telefoons te detecteren in deze afbeeldingen:

4. Verlichtingsomstandigheden

De effecten van verlichting zijn ingrijpend op pixelniveau. Objecten vertonen verschillende kleuren onder verschillende lichtomstandigheden.

Een bewakingscamera voor buiten wordt bijvoorbeeld de hele dag blootgesteld aan verschillende lichtomstandigheden, waaronder helder daglicht, avond- en nachtlicht.

Een afbeelding van een voetganger ziet er anders uit in deze verschillende verlichtingen. Dit beïnvloedt het vermogen van de detector om objecten robuust te detecteren.

5. Rommelige of gestructureerde achtergrond

De interessante objecten kunnen opgaan in de achtergrond, waardoor ze moeilijk te identificeren zijn. De katten- en hondenafbeeldingen hieronder zijn bijvoorbeeld gecamoufleerd met het kleed waarop ze zitten of liggen. In deze gevallen zullen objectdetectoren problemen ondervinden bij het detecteren van katten en honden.

6. Variatie binnen de klas

Een interessant object kan vaak relatief breed zijn, zoals een huis. Er zijn veel verschillende soorten van deze objecten, en elk zal zijn eigen specifieke uiterlijk hebben. Alle onderstaande afbeeldingen zijn van verschillende soorten huizen.

Een goede detector moet robuust genoeg zijn om het kruisproduct van al deze variaties te detecteren, terwijl ook de gevoeligheid voor variaties tussen klassen behouden blijft.

Deze problemen oplossen

Om een ​​robuuste objectdetector te maken die deze veelvoorkomende problemen met objectdetectie kan overwinnen, moet u zorgen voor een goede variatie aan trainingsgegevens. Voeg verschillende gezichtspunten, belichtingsomstandigheden en objecten met verschillende achtergronden toe.

Als je met al deze variaties geen echte trainingsgegevens kunt vinden, gebruik dan technieken voor gegevensvergroting om de gegevens te synthetiseren die je nodig hebt.

Referenties:

Pahuja, A., Majumder, A., Chakraborty, A., & Venkatesh Babu, R. (2019). Verbetering van de meest opvallende objectsegmentatie door aandacht. arXiv preprint arXiv:1905.11522.

Maier, W., Eschey, M., & Steinbach, E. (2011, september). Objectdetectie op basis van afbeeldingen bij wisselende verlichting in omgevingen met spiegelende oppervlakken. In 2011 18e IEEE International Conference on Image Processing (pp. 1389-1392). IEEE.

Cai, Y., Du, D., Zhang, L., Wen, L., Wang, W., Wu, Y., & Lyu, S. (2019). Begeleid aandachtsnetwerk voor objectdetectie en tellen op drones. arXiv preprint arXiv:1909.11307.

Hsiao, E., & Hebert, M. (2014). Occlusieredenering voor objectdetectie onder willekeurig gezichtspunt. IEEE-transacties over patroonanalyse en machine-intelligentie, 36(9), 1803-1815.

https://compsci697l.github.io/notes/classification/

https://www.einfochips.com/blog/understanding-image-recognition-and-its-uses/

Wilt u realtime gezichtsdetectie implementeren op een Raspberry Pi? Bekijk dit bericht.

Sabina Pokhrel
Customer Success AI Engineer, Xailient

0

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *