Qualcomm AI Research's nieuwste onderzoek en technieken voor efficiënte videoperceptie

Het gezegde luidt dat een foto meer zegt dan duizend woorden, dus wat betekent dat voor video? Video, dat in wezen een opeenvolging van statische afbeeldingen is, voegt een tijdselement en meer context toe. Videoperceptie, dat wil zeggen het analyseren en begrijpen van video-inhoud, met AI kan waardevolle inzichten en mogelijkheden bieden voor veel toepassingen, variërend van autonoom rijden en slimme camera's tot smartphones en extended reality. Autonoom rijden maakt bijvoorbeeld gebruik van video van meerdere camera's voor een verscheidenheid aan cruciale taken, waaronder detectie van voetgangers, rijstroken en voertuigen. Videoperceptie is cruciaal om de wereld te begrijpen en apparaten slimmer te maken.

Video is alomtegenwoordig in alle applicaties, apparaten en industrieën.

Als we het over AI hebben, vragen mensen vaak of er genoeg data is. Het antwoord is een definitief ja. Videogegevens zijn overvloedig en worden met steeds hogere snelheden gegenereerd. In feite is video overal om ons heen, het biedt entertainment, verbetert de samenwerking en transformeert industrieën. De omvang van de video die wordt gemaakt en geconsumeerd is enorm – bedenk dat bijna 1 miljoen minuten video per seconde het internet overgaat. Slechts een klein deel van deze enorme hoeveelheid videogegevens, een druppel op een gloeiende plaat, is echter geannoteerd voor begeleid leren. Dit motiveert oplossingen die gebruik maken van niet-gesuperviseerd en semi-gesuperviseerd leren.

Compute-efficiëntie is essentieel voor alomtegenwoordige videoperceptie

Dus, als videogegevens direct beschikbaar zijn en video-analyse waardevolle informatie oplevert, waarom wordt AI dan niet vaker gebruikt voor videoperceptie? In mijn webinar ga ik in op een aantal uitdagingen op het gebied van gegevens en implementatie, maar het probleemgebied waar ik me voor deze blogpost op wil concentreren, is computationele efficiëntie. Naarmate de videoresolutie en framesnelheden toenemen, terwijl AI-videoperceptiemodellen complexer worden om de nauwkeurigheid te verbeteren, wordt het uitvoeren van deze workloads in realtime een grotere uitdaging. Wat de uitdaging nog groter maakt, is dat we videoperceptie willen uitvoeren op een diverse reeks apparaten die vaak beperkingen hebben op het gebied van stroom, warmte, rekenkracht en geheugen. Het is belangrijk om gegevens dichter bij de bron te verwerken door middel van AI op het apparaat, omdat het cruciale voordelen biedt zoals privacy, personalisatie en betrouwbaarheid, naast het helpen van schaalintelligentie.

Om te kunnen schalen, moeten neurale netwerken voor videoperceptie efficiënt zijn.

Efficiënte videoperceptie op het apparaat uitvoeren zonder in te boeten aan nauwkeurigheid

Bij Qualcomm AI Research is ons onderzoeksdoel voor videoperceptie het bereiken van efficiënte oplossingen met behoud en verbetering van de nauwkeurigheid van neurale netwerkmodellen. In plaats van brute force-berekeningen uit te voeren, proberen we onnodige berekeningen te verwijderen die de nauwkeurigheid niet verminderen. Het verwijderen van onnodige berekeningen verbetert over het algemeen de prestaties, verlaagt het geheugenverbruik en bespaart energie. De motivaties voor efficiënte videoperceptietechnieken die we hebben ontwikkeld, zijn gecentreerd rond twee sleutelconcepten: gebruik maken van tijdelijke redundantie en vroege beslissingen nemen.

Het benutten van tijdelijke redundantie en het nemen van vroege beslissingen zijn van cruciaal belang voor een efficiënte videoperceptie

Gebruikmaken van tijdelijke redundantie om berekeningen tussen frames te verminderen

Gebruikmaken van tijdelijke redundantie betekent profiteren van het feit dat videoframes sterk gecorreleerd zijn. Het verschil tussen twee opeenvolgende videoframes is vaak minimaal en bevat in de meeste regio's weinig nieuwe informatie, waardoor het vaak niet nodig is om het hele beeld te analyseren. We willen de berekening beperken tot de regio's waar er significante veranderingen zijn. Regio's overslaan en recyclingfuncties zijn twee nieuwe technieken die we hebben ontwikkeld om te profiteren van tijdelijke redundantie in video.

Voor het leren om regio's over te slaan, hebben we skip-convoluties ontwikkeld voor convolutionele neurale netwerken (CNN's). We introduceren een skip-gate in een convolutionele laag van een neuraal netwerk om berekeningen over te slaan wanneer de verschillen tussen de huidige en vorige frame-invoerfuncties verwaarloosbaar zijn. De skip-gate zelf is een klein neuraal netwerk dat trainbaar en rekenkundig efficiënt is. Het netto resultaat is dat het neurale netwerk leert onnodige berekeningen over te slaan met behoud van nauwkeurigheid. Onze skip-convolutietechniek, toegepast op ultramoderne objectdetectiemodellen, heeft bijvoorbeeld geresulteerd in een versnelling van 3x-5x ten opzichte van state-of-the-art modellen zonder dat dit ten koste gaat van de nauwkeurigheid van het model. Wat ook opmerkelijk is, is dat convoluties overslaan breed toepasbaar zijn en convolutionele lagen in elke CNN voor videotoepassingen kunnen vervangen.

De techniek van recyclingfuncties berekent functies één keer en gebruikt ze later in plaats van herhaaldelijk diepe functies van het neurale netwerk te berekenen. De intuïtie hierachter is dat de diepe kenmerken relatief stationair blijven in de tijd, terwijl ondiepe kenmerken de tijdelijk variërende informatie bevatten. Recyclingfuncties zijn van toepassing op alle neurale netwerkarchitecturen voor video, inclusief segmentatie, optische stroom, classificatie en meer. Bij een voorbeeld van semantische segmentatie zagen we een vermindering van 78% in berekeningen en een vermindering van 65% in latentie door gebruik te maken van functierecycling. Bovendien zagen we een dramatische vermindering van het geheugenverkeer, wat aanzienlijk energie bespaart.

Vroegtijdige beslissingen nemen om de berekening te verminderen

Vroegtijdige beslissingen nemen pogingen om gemakkelijke beslissingen vroeg te nemen door dynamisch de netwerkarchitectuur per invoerframe. Vroege beslissingen stellen ons in wezen in staat berekeningen over te slaan die niet nodig zijn om de nauwkeurigheid te behouden. Early exit en frame exiting zijn twee technieken die voordeel halen uit het nemen van vroege beslissingen.

Vroegtijdig afsluiten maakt gebruik van het feit dat niet alle invoervoorbeelden modellen van dezelfde complexiteit nodig hebben om de nauwkeurigheid te behouden. Voor complexe invoervoorbeelden zijn zeer grote modellen nodig die meestal rekenintensief zijn om correct te classificeren. Voor eenvoudige invoervoorbeelden kunnen zeer kleine en compacte modellen echter een zeer hoge nauwkeurigheid bereiken, terwijl ze alleen falen voor complexe voorbeelden. Om hiervan te profiteren, moet ons neurale netwerk zijn samengesteld uit een cascade van classifiers door het hele netwerk. Om de vroege exit-beslissing te nemen, gaan we poorten op basis van temporele overeenstemming en framecomplexiteit. Vroegtijdig afsluiten vermindert de rekenkracht terwijl de nauwkeurigheid behouden blijft. Voor een voorbeeld van objectclassificatie resulteerde het zo vroeg mogelijk verlaten van de neurale netwerklaag in een 2,5x reductie in berekeningen met behoud van de nauwkeurigheid.

Frame exiting gebruikt een soortgelijk poortconcept, maar probeert berekeningen op een volledig invoerframe over te slaan door vroege beslissingen te nemen. Voor actieherkenningstaken vermindert het verlaten van het frame niet alleen de rekenkracht, maar verbetert het ook de nauwkeurigheid van het model. Door poorten toe te voegen aan de neurale netwerkarchitectuur, concentreren diepere lagen zich op de moeilijke beslissingen, terwijl eerdere lagen alle gemakkelijke problemen oplossen. Deze poortmethode stelt ons ook in staat modellen te trainen die een afweging maken tussen nauwkeurigheid en efficiëntie, waardoor AI-ontwikkelaars het model kunnen aanpassen aan de vereisten van de use case.

Verder kijken dan efficiënte videoperceptie

Vooruitblikkend, zal ons toekomstig onderzoek naar videoperceptie erop gericht zijn bestaande efficiëntietechnieken die ik hierboven heb besproken te verbeteren, terwijl ook nieuwe voorwaardelijke rekenoplossingen worden ontwikkeld. We brengen gepersonaliseerde verwerking, multi-task leren, spaarzame convoluties, niet-gesuperviseerde en semi-gesuperviseerde benaderingen, kwantiseringsbewuste training en platformoptimalisaties in onze ontwerpen. Daarnaast is ons belevingsonderzoek veel breder dan video. Naast video stimuleren we high-impact onderzoeksinspanningen op het gebied van machine learning en computer vision en bedenken we technologie-enablers op verschillende gebieden van perceptie, van 3D- en RF-detectie tot personalisatie en biometrie. We zijn gericht op het mogelijk maken van geavanceerde gebruiksscenario's voor belangrijke toepassingen, waaronder XR, camera, mobiel, autonoom rijden, IoT en nog veel meer. Ik kijk uit naar een toekomst met veel meer opmerkzame apparaten die ons dagelijks leven verbeteren.

Download de efficiënte videoperceptie via AI-presentatie

Fatih Porikli
Senior Director of Technology, Qualcomm Technologies

0

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *