8-bit integer-modellen met behulp van de AI Model Efficiency Toolkit
Het kleiner maken van neurale netwerkmodellen is cruciaal voor de wijdverbreide inzet van AI. Qualcomm AI Research heeft state-of-the-art kwantisatietechnieken ontwikkeld die energie-efficiënte vaste-puntinferentie mogelijk maken met behoud van modelnauwkeurigheid, zoals Data Free Quantization (DFQ) en AdaRound, post-trainingstechnieken die nauwkeurige 8 bereiken. -bit kwantisering zonder data.
Om dit onderzoek toegankelijker te maken en bij te dragen aan de open-sourcegemeenschap, lanceerde Qualcomm Innovation Center (QuIC) in mei 2020 de AI Model Efficiency Toolkit (AIMET) op GitHub. Het doel van AIMET is om energie-efficiënte gehele inferentie mogelijk te maken door een eenvoudige bibliotheek te bieden plug-in voor AI-ontwikkelaars om te gebruiken voor state-of-the-art modelefficiëntieprestaties. Het AIMET-project bloeit met regelmatig bijgewerkte kwantisatietechnieken op basis van werk van Qualcomm AI Research en actief gebruik door de bredere AI-gemeenschap, waaronder meerdere mobiele OEM's, ISV's en onderzoekers in de academische wereld.
Toonaangevend kwantisatieonderzoek wordt snel open source.
QuIC gaat nu een stap verder door een verzameling populaire, vooraf getrainde modellen die zijn geoptimaliseerd voor 8-bits inferentie aan GitHub bij te dragen in de vorm van “AIMET Model Zoo”. Samen met de modellen biedt AIMET Model Zoo ook het recept voor het kwantiseren van populaire 32-bit floating point (FP32)-modellen naar 8-bit integer (INT8)-modellen met weinig nauwkeurigheidsverlies. De geteste en geverifieerde recepten bevatten een script dat TensorFlow- of PyTorch-modellen optimaliseert voor een breed scala aan categorieën, van beeldclassificatie, objectdetectie, semantische segmentatie en poseschatting tot superresolutie en spraakherkenning.
AIMET Model Zoo biedt 8-bit gekwantiseerde modellen voor verschillende categorieën.
Dit geeft onderzoekers en ontwikkelaars directe toegang tot zeer nauwkeurige gekwantiseerde modellen, waardoor ze tijd besparen bij het behalen van prestatievoordelen zoals verminderd energieverbruik, latentie en geheugenvereisten voor on-target inferentie. Stel je bijvoorbeeld voor dat je een ontwikkelaar bent die semantische segmentatie wil doen voor het verfraaien van afbeeldingen of autonoom rijden use cases met behulp van het DeepLabv3+-model. AIMET Model Zoo biedt een geoptimaliseerd DeepLabv3+-model met behulp van de DFQ- en Quantization Aware Training (QAT)-functies van AIMET. Het bijbehorende AIMET Model Zoo-recept verwijst naar dit geoptimaliseerde model en biedt de juiste aanroepen naar de AIMET-bibliotheek om INT8-simulatie uit te voeren en de prestaties te beoordelen. In feite heeft de gekwantiseerde AIMET-versie een Mean Intersection over Union (mIoU)-score van 72,08%, wat vrijwel gelijk is aan de 72,32% van het originele FP32-model. De afbeelding hieronder laat visueel zien hoe het gekwantiseerde model in AIMET Model Zoo resulteert in nauwkeurige semantische segmentatie.
Side-by-side vergelijking van FP32-model, 8-bit gekwantiseerd AIMET-model en 8-bit gekwantiseerd basismodel voor DeepLabv3+ semantische segmentatie. AIMET-kwantisering resulteert in nauwkeurige kwantisering, terwijl de basislijnkwantiseringsmethode onnauwkeurig is.
Dit is een voorbeeld. De AIMET Model Zoo heeft veel INT8 gekwantiseerde neurale netwerkmodellen die nauwkeurige inferentie bieden die vergelijkbaar is met FP32-modellen. Met deze eerste bijdrage van 14 INT8-modellen aan AIMET Model Zoo, verlichten we de hindernissen voor het ecosysteem bij het gebruik van gekwantiseerde modellen in hun AI-workloads en streven we zo naar het alomtegenwoordig maken van energie-efficiënte inferentie op een vast punt. U kunt het beste van twee werelden krijgen — de hoge nauwkeurigheid van een drijvende-kommamodel en de modelefficiëntie van 8-bit integer-modellen.
Bekijk onze AIMET Model Zoo en AIMET.
Chirag Patel
Engineer , directeur/manager, Qualcomm Technologies