Interacties met computersystemen profiteren vaak van de mogelijkheid om informatie over de gebruiker of gebruiksomgeving te detecteren. Hiervoor worden vaak beeldverwerkings- en analysetechnieken gebruikt, waaronder diepe neurale netwerken (DNN's). Veel veelbelovende toepassingen voor visuele verwerking, zoals contactloze schatting van vitale functies en smart home monitoring, kunnen echter betrekking hebben op privé- en/of gevoelige gegevens, zoals biometrische informatie over iemands gezondheid. Thermische beeldvorming, die nuttige gegevens kan opleveren en tegelijkertijd individuele identiteiten kan verbergen, wordt daarom voor veel toepassingen gebruikt.

Verschillende aspecten van de toepassing van DNN's op warmtebeelden verdienen meer onderzoek. In het bijzonder, in onderzoek uitgevoerd met Dr. Jacek Ruminski van de Gdansk University of Technology en gepresenteerd in juni op de IEEE 12th International Conference on Human System Interaction (HSI 2019), onderzoeken we:

  • Kan een DNN-model dat is getraind op RGB-beeldgegevens (met andere woorden, beeldgegevens van “zichtbaar licht”), kan worden toegepast op warmtebeelden, zonder hertraining, met behoud van de nauwkeurigheid van de classificatie?
  • Hoe beïnvloedt de resolutiedegradatie van de thermische beelden via downscaling de herkenningsnauwkeurigheid van het model?
  • Verbetert de toepassing van een Super Resolution (SR)-model om de gedegradeerde thermische beelden te verbeteren de classificatienauwkeurigheid van het model?

Ons artikel over dit onderwerp, “Influence of Thermal Imagery Resolution on Accuracy of Deep Learning-based Face Recognition”, ” werd op de conferentie bekroond met de eer van beste paper op het gebied van gezondheidszorg en hulpmiddelen. Onze voorlopige resultaten geven aan dat een RGB-model effectief kan zijn voor de classificatie van thermische gezichtsbeelden zonder hertraining. We vinden ook dat SR in sommige gevallen de nauwkeurigheid van de classificatie van beelden met een lagere resolutie kan verbeteren.

DNN's voor thermische beelden: waarom?

Het nut van contextinformatie over gebruiker en gebruiksomgeving heeft geleid tot verschillende onderzoeken [1] waarin computervisie-algoritmen worden toegepast om mensen, objecten en acties te detecteren en te herkennen. Problemen die met dergelijke algoritmen worden gevonden, hebben meestal betrekking op slechte lichtomstandigheden of beveiligings- of privacyproblemen.

Problemen met verlichting zijn op verschillende manieren aangepakt, meestal ten koste van grotere rekenkundige overhead. Deze benaderingen worden ook beperkt door alleen in bepaalde omgevingen te werken. Er blijven echter privacy- en beveiligingsproblemen bestaan ​​bij het gebruik van zichtbaar lichtbeelden voor toepassingen op het gebied van bijvoorbeeld medicijnen of persoonsbewaking voor slimme omgevingen. In dergelijke systemen wordt vaak warmtebeeldmateriaal gebruikt om de privacy te vergroten door persoonlijk identificeerbare details te verdoezelen.

Tegelijkertijd worden DNN's de afgelopen jaren steeds meer gebruikt, en winnen ze aan populariteit vanwege hun mensachtige competentie voor taken zoals persoonsherkenning. Eerder onderzoek heeft methoden voor gezichtsherkenning toegepast waarvan bekend is dat ze werken op beelden van zichtbaar licht op warmtebeelden die via verschillende methoden zijn verkregen. Onderzoekers hebben doorgaans traditionele functie-extractie toegepast op classificatie-/herkenningsbenaderingen.

Het is minder bekend of DNN's die zijn getraind op beelden van zichtbaar licht goed zullen generaliseren naar thermische gegevens zonder hertraining, aangezien thermische gegevens vloeiende veranderingen tussen gezichtsregio's laten zien. , hebben een lager contrast en missen hoogfrequente componenten. Verder hebben onderzoekers de invloed van beeldresolutie op de nauwkeurigheid van gezichtsherkenning voor zichtbaar lichtbeelden bestudeerd, maar voor zover wij weten, bestaan ​​dergelijke onderzoeken niet voor thermische gegevens.

Methodologie

<Gegevenssets.Onze experimenten gebruikten twee datasets van warmtebeelden van gezichten. De eerste, in ons onderzoek SC3000-DB genoemd, is gemaakt door ons onderzoeksteam met behulp van een FLIR ThermaCAM* SC3000-camera. Het bevat 766 afbeeldingen in 40 categorieën, waarbij elke categorie een andere vrijwilliger uit ons cohort van 19 mannen en 21 vrouwen voorstelt. Om deze beelden vast te leggen, werd aan vrijwilligers gevraagd om gedurende twee minuten naar de camera te kijken. De tweede set die werd gebruikt, was de IRIS-dataset van het Visual Computing and Image Processing Lab (VCIPL) van de Oklahoma State University. IRIS bestaat uit 4190 beelden die zijn verzameld met de hulp van 30 vrijwilligers. IRIS verschilt voornamelijk van SC3000-DB doordat personen niet gefocust waren op de thermische camera, hun hoofd kunnen bewegen en verschillende gezichtsuitdrukkingen kunnen gebruiken in verschillende beelden.

Gezichtsdetectie.Omdat afbeeldingen in onze datasets vaak meer kenmerken bevatten dan alleen het gezicht van de vrijwilliger, was onze eerste stap om de afbeeldingen bij te snijden tot alleen de regio met het gezicht van de persoon. Om dit te doen, hebben we het SSD-model opnieuw getraind met Inception V2-backbone met behulp van transfer learning en het toepassen van een willekeurige zoekbenadering op de hyperparameters voor de beste trainingsconfiguratie.

Resolution Degradation and Enhancement. Resolutiedegradatie werd gesimuleerd door verkleinde afbeeldingen uit beide datasets te genereren na gezichtsherkenning en bijsnijden. Afbeeldingen werden 2x, 4x en 8x verkleind, wat resulteerde in afbeeldingen zo klein als 13.14 ± 1,47 pixels bij 15,57 ± 1,96 pixels. Beeldverbetering vond plaats door het gebruik van het Super Resolution convolutionele neurale netwerk (CNN), een door ons ontworpen aangepaste CNN, die werd aangepast om het receptieve veld te verbreden door resterende blokken met gedeelde gewichten te introduceren in het subnetwerk voor functie-extractie van het CNN SR-model. Deze aanpassing pakt het probleem aan van vervaging van kenmerken in warmtebeelden en de uitdaging van grotere afstanden tussen interessante componenten als gevolg van de warmtestroom in objecten.

Een deel van ons onderzoek was zelfs om te verifiëren hoe het gebruik van Super Resolution de nauwkeurigheid van persoonsherkenning kan verbeteren. Superresolutie werd gebruikt om een ​​versie van de afbeelding met een hogere resolutie te maken zonder het vervagingseffect van vergrote pixels te veroorzaken. Om een ​​beeld van slechte kwaliteit te simuleren dat super opgelost moet worden, hebben we het originele beeld genomen, het verkleind met een factor X (dit is het beeld van een gesimuleerde camera van lage kwaliteit) en vervolgens opgeschaald met dezelfde factor X tijdens het toepassen Superresolutie.

Extractie van gezichtskenmerken. We gebruikten gezichtskenmerken die worden weergegeven als de vector van inbeddingen die zijn geëxtraheerd uit bijgesneden afbeeldingen met behulp van de FaceNet DNN-architectuur. We gebruikten een model getraind op VGGFace2— met andere woorden, een model getraind op beelden van zichtbaar licht – om te valideren of een dergelijk model kan worden toegepast op warmtebeelden.

Gezichtsherkenning.We hebben twee methoden getest om gezichtskenmerken te vergelijken. Eerst gebruikten we Support Vector Machines (SVM) met lineaire kernel om de persoon te identificeren die in een bepaalde invoerafbeelding is afgebeeld. De tweede benadering was gebaseerd op de Euclidische afstand tussen vectorrepresentaties uit het databaseprofiel van het individu en de invoerafbeelding.

Bevindingen

We hebben een FaceNet-model gevonden dat is getraind op beeldgegevens van zichtbaar licht om goed te generaliseren naar warmtebeelden, wat de haalbaarheid aantoont van het toepassen van dergelijke DNN's op warmtebeeldherkenningstaken. We laten zien dat het model in staat was gezichtsinbeddingen te extraheren en verschillende vrijwilligers te onderscheiden in onze twee datasets met een nauwkeurigheid van 99,5% voor SC3000-DB en 82,14% voor IRIS.

Tabel 1 Nauwkeurigheid [%] van persoonsherkenning van afbeeldingen op testsets (80% van alle afbeeldingen); de referentie-inbedding gegenereerd met 20% van de afbeeldingen.

In Figuur 1, observeren we de invloed van resolutiedegradatie op het vermogen om verschillende klassen te onderscheiden. Hoewel de oorspronkelijke gegevens voor het grootste deel netjes kunnen worden geclusterd, overlappen de clusters elkaar steeds meer naarmate de resolutie afneemt, waardoor nauwkeurige classificatie moeilijker wordt.

Figuur 1 – De invloed van resolutiedegradatie op het vermogen om klassen te onderscheiden.

Om hiermee om te gaan, hebben we SR toegepast op alle beeldinvoer die kleiner is geschaald dan het origineel. De nauwkeurigheid van de classificatie is verbeterd met SR voor de IRIS-dataset, waaronder beweging, gezichtsuitdrukkingen en andere onregelmatigheden. Verbetering door SR was minimaal voor de andere dataset die we hebben getest, die minder dynamische afbeeldingen bevatte. Toch lijkt dit het nut van SR aan te geven in scenario's zoals monitoring van vitale functies op afstand en gebruikersauthenticatie, die erop kunnen vertrouwen dat hun onderwerpen onbeweeglijk blijven.

Conclusies en volgende stappen

Onze voorlopige resultaten laten zien:

  • DNN's voor zichtbaar lichtbeelden kunnen van toepassing zijn op andere beeldtypen, zoals warmtebeelden.
  • Resolutiedegradatie van thermische beelden vermindert hun classificatienauwkeurigheid bij gebruik van een DNN die is getraind voor zichtbaar lichtbeelden.
  • De classificatienauwkeurigheid kan in sommige gevallen worden verbeterd door het gebruik van een SR-model.

We hopen dit onderzoek in de toekomst uit te breiden voor gegevens die zijn verzameld in verschillende andere meetscenario's, zoals wanneer proefpersonen’ hoofden worden horizontaal of verticaal gedraaid. Lees voor meer informatie over dit onderzoek ons ​​artikel, Influence of Thermal Imagery Resolution on Accuracy of Deep Learning-based Face Recognition. Voor meer onderzoek naar deze en andere gebieden van AI en deep learning, houd ons in de gaten op  intel.ai, @IntelAIResearch en @IntelAI.

Maciej Szankin
Software Engineer, AI Applications, Intel

Alicja Kwasniewska
Software-ingenieur, AI-toepassingen, Intel

0

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *