Helder zicht met een bril (Foto door timJ op Unsplash)
Deze blogpost is oorspronkelijk gepubliceerd op de website van Xailient. Het is hier herdrukt met toestemming van Xailient.
Autonoom rijden, gezichtsherkenning, verkeerstoezicht, persoon volgen en object tellen, al deze toepassingen hebben één ding gemeen: Computer Vision (CV). Sinds het succes van deep learning in CV-taken sinds AlexNet, won een deep learning-algoritme de ImageNet Large Scale Visual Recognition Challenge (ILSVRC) CV Competition in 2012, meer toepassingen profiteren van deze vooruitgang in CV.
Terwijl de deep learning-modellen steeds beter worden in CV-taken zoals objectdetectie, worden deze modellen steeds groter. Van 2012 tot 2015 de grootte van het winnende model in de ILSVRC CV 16 keer groter. Hoe groter het model, hoe meer parameters het heeft en hoe meer berekeningen het nodig heeft voor gevolgtrekking, wat op zijn beurt een hoger energieverbruik betekent. Het kostte AlphaGo, een AI, 1.920 CPU's en 280 GPU's om te trainen om de menselijke kampioen in het spel Go te verslaan, wat ongeveer $ 3.000 aan elektriciteitskosten is. Diepgaande leermodellen zijn ongetwijfeld aan het verbeteren en hebben bij bepaalde taken beter gepresteerd dan mensen, maar betalen de kosten in termen van grotere omvang en hoger energieverbruik.
Onderzoekers hebben toegang tot GPU-aangedreven apparaten om hun experimenten op uit te voeren en daarom worden de meeste basismodellen getraind en geëvalueerd op GPU-apparaten. Het is geweldig als we deze modellen gewoon willen blijven verbeteren, maar het vormt een uitdaging als we het willen gebruiken voor real-world toepassingen om echte problemen op te lossen. Van smartphones tot slimme huizen, applicaties vragen nu om realtime berekeningen en realtime respons. De grote uitdaging om aan deze real-time vraag te voldoen in een rekenkundig beperkt platform.
<mAP vs GPU wandkloktijd gekleurd door meta-architectuur (Huang et al., 2017)
Eerdere modellen zoals YOLO en R-CNN hebben hun efficiëntie en nauwkeurigheid bewezen in op GPU gebaseerde computers, maar zijn niet bruikbaar voor realtime toepassingen die niet-GPU-computers gebruiken. In de loop der jaren zijn er variaties van deze modellen ontwikkeld om aan de real-time vereisten te voldoen, en hoewel ze erin zijn geslaagd om het model kleiner te maken, zodat ze passen en werken op rekenkundig beperkte apparaten met een zeer laag geheugen, doen ze afbreuk aan de nauwkeurigheid . MobileNets, SqueezeNet, TinyYOLO, YOLO-LITE en SlimYOLO zijn enkele voorbeelden van deze modellen.
De echte prestatie is wanneer we dit in realtime kunnen gebruiken op een apparaat van $ 5, zoals een Raspberry Pi Zero, zonder concessies te doen aan de nauwkeurigheid.
Vooraf getrainde AI-modellen zijn hier gratis te downloaden
Eerdere modellen zoals YOLO en R-CNN hebben hun efficiëntie en nauwkeurigheid bewezen in op GPU gebaseerde computers, maar zijn niet bruikbaar voor realtime toepassingen die niet-GPU-computers gebruiken. In de loop der jaren zijn er variaties van deze modellen ontwikkeld om aan de real-time vereisten te voldoen, en hoewel ze erin zijn geslaagd om het model kleiner te maken, zodat ze passen en werken op rekenkundig beperkte apparaten die een zeer laag geheugen gebruiken, doen ze afbreuk aan de nauwkeurigheid . MobileNets, SqueezeNet, TinyYOLO, YOLO-LITE en SlimYOLO zijn enkele voorbeelden van deze modellen.
Er is een afweging tussen systeemmatrices bij het maken van ontwerpbeslissingen voor Deep Neural Network (DNN). Een DNN-model met een hogere nauwkeurigheid zal bijvoorbeeld meer geheugen gebruiken om modelparameters op te slaan en een hogere latentie hebben. Integendeel, een DNN-model met minder parameters gebruikt waarschijnlijk minder rekenbronnen en wordt dus sneller uitgevoerd, maar heeft mogelijk niet de nauwkeurigheid die nodig is om aan de vereisten van de applicaties te voldoen (Chen & Ran, 2019).
Drones of algemene onbemande luchtvaartuigen (UAV's), met voertuigvolgmogelijkheden, moeten bijvoorbeeld energiezuinig zijn zodat ze langer op batterijstroom kunnen werken, en moeten een voertuig in realtime met hoge nauwkeurigheid volgen, anders het zal van minder waarde zijn. Bedenk hoe vervelend het is wanneer je de camera-applicatie van je smartphone opent en iedereen klaar is met hun pose, en het duurt een eeuwigheid voordat de camera opengaat, en nogmaals wanneer het opent, duurt het een eeuwigheid om op een enkele foto te klikken. Als we verwachten dat de camera in onze smartphones snel is, is het redelijk om hoge prestaties te verwachten van drones voor het volgen van voertuigen.
Miljard drijvende-kommabewerkingen (BFLOP's) versus nauwkeurigheid (mAP) op VisDrone2018-Det benchmark dataset (Zhang, Zhong, & Li, 2019)
Om aan de realtime-eisen te voldoen, moeten deep learning-modellen een lage latentie hebben voor een snellere respons, klein zijn zodat ze in edge-apparaten kunnen, minimale energie gebruiken zodat ze langere tijd op de batterij kunnen werken en dezelfde nauwkeurigheid als wanneer ze worden uitgevoerd op GPU-aangedreven apparaten.
Drones of algemene onbemande luchtvaartuigen (UAV's), met voertuigvolgmogelijkheden, moeten bijvoorbeeld energiezuinig zijn zodat ze langer op batterijstroom kunnen werken, en moeten het voertuig in realtime met hoge nauwkeurigheid volgen, anders zal het minder waard zijn. Bedenk hoe vervelend het is wanneer je de camera-applicatie van je smartphone opent en iedereen klaar is met hun pose, en het duurt een eeuwigheid voordat de camera opengaat, en nogmaals wanneer het opent, duurt het een eeuwigheid om op een enkele foto te klikken. Als we verwachten dat de camera in onze smartphones snel is, is het redelijk om hoge prestaties te verwachten van drones voor het volgen van voertuigen.
Xailient's Detectum is de oplossing!
Xailient heeft bewezen dat de Detectum-software CV 98,7% efficiënter uitvoert zonder aan nauwkeurigheid in te boeten. Het is aangetoond dat Detectum-objectdetectie, die zowel lokalisatie als classificatie van objecten in afbeeldingen en video uitvoert, beter presteert dan de toonaangevende YOLOv3.
Xailient bereikte dezelfde nauwkeurigheid 76x sneller dan de Cloud Baseline, en was 8x sneller dan de Edge Baseline zonder nauwkeurigheidsverlies.
Vooraf getrainde AI-modellen zijn hier gratis te downloaden
De ontwikkeling van deep learning in CV vordert in een snel tempo, en hoewel ze steeds nauwkeuriger worden, nemen de inspanningen van de industrie toe in omvang, waardoor de rekentijd en -kosten worden beïnvloed. Hoewel er onderzoek wordt gedaan om de omvang van de deep learning-modellen te verkleinen, zodat ze op apparaten met een laag energieverbruik kunnen werken, is er een afweging tussen snelheid, nauwkeurigheid, grootte en energieverbruik. Xailient's Detectum is het antwoord op deze uitdaging, aangezien bewezen is dat het 76 keer sneller werkt dan YOLOv3 en 8 keer sneller dan de TinyYOLO, met dezelfde nauwkeurigheid.
Vooraf getrainde AI-modellen beschikbaar voor download hier gratis
Meer verhalen van Xailient
What's Salient? Xailient in de AFR!
Moeite met objectdetectie op een Raspberry Pi
Xailient commercialiseert baanbrekend universitair onderzoek op het gebied van kunstmatige intelligentie en machinaal leren. Onze technologie verlaagt drastisch de kosten van datatransmissie, -opslag en -berekening die gepaard gaan met het extraheren van nuttige informatie uit realtime video door de manier waarop mensen denken te verwerken. www.xailient.com
Referenties
Chen, J., & Ran, X. (2019). Diep leren met edge computing: een overzicht. Procedures van de IEEE, 107 (8), 1655-1674. doi: 10.1109/jproc.2019.2921977
Jiang, Z., Chen, T., & Li, M. (2018). Efficiënte Deep Learning-inferentie op Edge-apparaten. In Proceedings of ACM Conference on Systems and Machine Learning (SysML'18).
Zhang, P., Zhong, Y., & Li, X. (2019). SlimYOLOv3: smaller, sneller en beter voor realtime UAV-toepassingen. In Proceedings of the IEEE International Conference on Computer Vision Workshops (pp. 0-0).
Pedoeem, J., & Huang, R. (2018). YOLO-LITE: een realtime algoritme voor objectdetectie dat is geoptimaliseerd voor niet-GPU-computers. arXiv voordruk arXiv:1811.05588.
Huang, J., Rathod, V., Sun, C., Zhu, M., Korattikara, A., Fathi, A., … & Murphy, K. (2017). Snelheid/nauwkeurigheid compromissen voor moderne convolutionele objectdetectoren. In Proceedings van de IEEE-conferentie over computervisie en patroonherkenning (pp. 7310-7311).
Vooraf getrainde AI-modellen zijn hier gratis te downloaden
Sabina Pokhrel
Customer Success AI Engineer, Xailient