Qualcomm AI Research's nieuwste onderzoek en technieken voor krachtige en reken-efficiënte AI, inclusief Neural Architecture Search (NAS)

AI, met name deep learning, zorgt voor een revolutie in industrieën, producten en kerncapaciteiten door drastisch verbeterde ervaringen te bieden. De diepe neurale netwerken van tegenwoordig gebruiken echter te veel geheugen, rekenkracht en energie. Om AI echt alomtegenwoordig te maken, moet het op eindapparaten draaien binnen krappe stroom- en thermische budgetten.

In deze blogpost zullen we ons concentreren op het nieuwste onderzoek naar modelefficiëntie van Qualcomm AI Research, met name het zoeken naar neurale architectuur (NAS). Daarnaast laten we zien hoe de AI-gemeenschap kan profiteren van onze open-source-modelefficiëntieprojecten, die state-of-the-art kwantisatie- en compressietechnieken bieden.

Een holistische benadering van AI-model efficiëntie

Bij Qualcomm AI Research hebben we veel energie gestoken in onderzoek naar AI-modelefficiëntie voor verbeterde energie-efficiëntie en prestaties. We proberen elk beetje efficiëntie uit AI-modellen te persen, zelfs degene die al door de industrie zijn geoptimaliseerd voor mobiele apparaten. Qualcomm AI Research hanteert een holistische benadering van onderzoek naar modelefficiëntie, aangezien er meerdere assen zijn om AI-modellen te verkleinen en ze efficiënt op hardware uit te voeren. We hebben onderzoeksinspanningen op het gebied van kwantisering, compressie, NAS en compilatie. Deze technieken kunnen complementair zijn, daarom is het belangrijk om de uitdaging van modelefficiëntie vanuit meerdere hoeken aan te pakken.


Qualcomm AI Research hanteert een holistische benadering van onderzoek naar de efficiëntie van AI-modellen.

In de afgelopen jaren hebben we ons toonaangevende AI-onderzoek naar kwantisatie, inclusief post-trainingstechnieken zoals Data Free Quantization en AdaRound, en gezamenlijke kwantisatie- en snoeitechnieken, zoals Bayesian Bits, gedeeld via blogposts en webinars. We willen nu ons NAS-onderzoek introduceren, dat helpt bij het vinden van optimale neurale netwerken voor real-life implementaties.

NAS om het ontwerp van efficiënte neurale netwerken te automatiseren

Optimaliseren en implementeren van state- of-the-art AI-modellen voor diverse scenario's op schaal is een uitdaging. State-of-the-art neurale netwerken zijn over het algemeen te complex om efficiënt te werken op doelhardware, en het handmatig ontwerpen van netwerken is niet schaalbaar vanwege de diversiteit van neurale netwerken, apparaatdiversiteit en kosten – zowel reken- als engineeringbronnen.

NAS-onderzoek is gestart om deze uitdagingen aan te pakken door een geautomatiseerde manier te creëren om een ​​netwerktopologie te leren die de beste prestaties voor een bepaalde taak kan bereiken. NAS-methoden bestaan ​​over het algemeen uit vier componenten. Een zoekruimte, die definieert in welke soorten netwerken en componenten kan worden gezocht. Een nauwkeurigheidsvoorspeller, die aangeeft hoe nauwkeurig een bepaald netwerk naar verwachting zal zijn. Een latentievoorspeller, die voorspelt hoe snel het netwerk gaat draaien. En een zoekalgoritme dat alle drie samenbrengt om de beste architectuur voor een specifieke use-case te vinden.

Hoewel NAS-onderzoek goede vooruitgang heeft geboekt, slagen bestaande oplossingen er nog steeds niet in om alle uitdagingen aan te pakken, met name het ontbreken van diverse zoekruimten, hoge rekenkosten, niet efficiënt schalen of geen betrouwbare schattingen van hardwareprestaties leveren. Ons nieuwste NAS-onderzoek gaat in op deze uitdagingen. We noemen het DONNA, Distilling Optimal Neural Network Architectures. DONNA is een efficiënte NAS met hardware-in-the-loop optimalisatie. Het is een schaalbare methode die tegen lage kosten optimale netwerkarchitecturen vindt in termen van nauwkeurigheid en latentie voor elk hardwareplatform. Het belangrijkste is dat het de uitdagingen aangaat van het implementeren van modellen in echte scenario's, omdat het diverse zoekacties omvat, lage rekenkosten heeft, schaalbaar is en directe hardwaremetingen gebruikt die betrouwbaarder zijn dan mogelijk onnauwkeurige hardwaremodellen.


DONNA is een efficiënte NAS-methode die de uitdagingen voor AI-implementatie op grote schaal aanpakt.

Op een hoog niveau zou een gebruiker beginnen met een te grote, vooraf getrainde referentiearchitectuur, feed het door de DONNA-stappen en ontvang een set optimale netwerkarchitecturen voor de scenario's waar ze om geven. Hier zijn een paar opmerkelijke aspecten van DONNA om te benadrukken:

  • De gevarieerde zoekruimte van Donna omvat de gebruikelijke variabele kernelgrootte, expansiesnelheid, diepte, aantal kanalen en celtype, maar kan ook door activeringen en aandacht zoeken, wat essentieel is voor het vinden van optimale architecturen .
  • De nauwkeurigheidsvoorspeller wordt slechts één keer gebouwd via bloksgewijze kennisdestillatie en is hardware-agnostisch. De lage opstartkosten van 1000 tot 4000 trainingsperioden (gelijk aan het trainen van 2 tot 10 netwerken vanaf nul) stelt NAS in staat om vervolgens te schalen naar vele hardwareapparaten en verschillende scenario's tegen minimale extra kosten.
  • De latentie van elk model wordt berekend door op het eigenlijke doelapparaat te draaien. Door de evolutionaire zoektocht op de echte hardware uit te voeren, legt DONNA alle fijne kneepjes van het hardwareplatform en de software vast, zoals de runtime-versie en hardware-architectuur. Als u bijvoorbeeld het meest om latentie geeft, kunt u de echte latentie vinden in plaats van een gesimuleerde latentie die mogelijk onnauwkeurig is.
  • De zoekmethode vindt een reeks optimale modellen, zodat u modellen kunt kiezen met elke gewenste nauwkeurigheid of latentie.
  • Vooraf getrainde DONNA-blokken zorgen voor een snelle fijnafstemming van het neurale netwerk om volledige nauwkeurigheid te bereiken, waarbij 15 -50 tijdperken van training.
  • DONNA is een enkele schaalbare oplossing. DONNA is bijvoorbeeld rechtstreeks van toepassing op downstream-taken en niet-CNN neurale architecturen zonder wijzigingen in de conceptuele code.


Gebruikersperspectief op hoog niveau van DONNA's 4-stappenproces om optimale netwerkarchitecturen voor diverse scenario's te vinden.

Hieronder staan ​​grafieken die laten zien dat DONNA state-of-the-art netwerken vindt voor scenario's op het apparaat. De y-as is de nauwkeurigheid voor alle vier grafieken, terwijl de x-as voor elke grafiek varieert. De vierde grafiek toont DONNA-resultaten op een mobiele SOC, in dit geval op de Qualcomm Hexagon 780-processor in de Qualcomm Snapdragon 888 die de Samsung Galaxy S21 aandrijft. Dit zijn echte hardwareresultaten in plaats van gesimuleerd, waardoor nauwkeurige metingen van gevolgtrekkingen per seconde mogelijk zijn. De DONNA-resultaten zijn toonaangevend ten opzichte van bestaande state-of-the-art netwerken – de gevonden architecturen zijn bijvoorbeeld 20% sneller met vergelijkbare nauwkeurigheid dan MobileNetV2-1.4x op een S21-smartphone. Het is ook vermeldenswaard de prestatievoordelen van het uitvoeren van 8-bits inferentie op hardware met speciale 8-bits AI-versnelling.

DONNA biedt ultramoderne resultaten in termen van nauwkeurigheid voor verschillende scenario's op zowel gesimuleerde als echte hardware.

Voor een diepgaande duik in DONNA kunt u ons webinar volgen of de krant lezen.

Open-source projecten om model-efficiënte AI naar de massa te schalen

Een belangrijke manier om kennis en schaalmodel-efficiënte AI met de massa te delen, is door middel van open-sourceprojecten. Twee open-source GitHub-projecten die gebruikmaken van het state-of-the-art onderzoek van Qualcomm AI Research zijn de AI Model Efficiency Toolkit (AIMET) en AIMET Model Zoo.

AIMET biedt state-of-the-art kwantiserings- en compressietechnieken. AIMET Model Zoo biedt nauwkeurige, vooraf getrainde 8-bit gekwantiseerde modellen. Door deze GitHub-projecten te maken en het voor ontwikkelaars gemakkelijk te maken ze te gebruiken, hopen we de overgang naar gekwantiseerde en gecomprimeerde modellen met een vast punt te versnellen. Dit zou applicaties drastisch moeten verbeteren, vooral die welke draaien op hardware met 8-bit AI-versnelling, voor betere prestaties, lagere latentie en lager energieverbruik.


Onze GitHub open source-projecten voor de efficiëntie van AI-modellen.

Wat de toekomst biedt voor de efficiëntie van modellen

Vooruitkijkend zal ons toekomstig onderzoek naar de efficiëntie van AI-modellen onze bestaande technieken op het gebied van kwantisering, compressie, compilatie en NAS blijven verbeteren — en nieuwe gebieden verkennen. We zijn altijd gericht op het verkleinen van modellen met behoud of zelfs verbetering van de modelnauwkeurigheid. Daarnaast streven we ernaar om tools en technieken te ontwikkelen die het voor onderzoekers en ontwikkelaars gemakkelijker maken om AI in te zetten en real-world problemen op te lossen. Bekijk onze onderzoekspapers en doe mee aan onze open-sourceprojecten – we zijn verheugd om te zien hoe modelefficiënte AI zich vermenigvuldigt en uiteindelijk ons ​​dagelijks leven verbetert!

Chirag Patel
Engineer, Principal/Manager, Qualcomm Technologies

Tijmen Blankevoort
Ingenieur, Senior Stafmanager, Qualcomm Technologies

0

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *