Contents
Deze blogpost is een verkorte versie van het Gyrfalcon-witboek “AI-Powered Camera Sensors”.
Computing at the Edge: slimme camera's, robotvoertuigen en eindpuntapparaten
Visuele gegevens zijn volumetrisch gegroeid – Kunstmatige intelligentie (AI) transformeert overweldigende hoeveelheden video in tijdige en bruikbare intelligentie in een tempo als nooit tevoren. AI-aangedreven camera's aan de rand stellen smartphone-, auto-, computer-, industriële en IoT-apparaten in staat om de manier waarop ze video en afbeeldingen verwerken, herstellen, verbeteren, analyseren, zoeken en delen opnieuw te definiëren. Op het apparaat geïntegreerde AI-camerasensor co-processorchips met hun ingebouwde hoge verwerkingskracht en geheugen zorgen ervoor dat de machine- en human-vision-applicaties veel sneller, energiezuiniger, kosteneffectiever en veiliger kunnen werken zonder te verzenden alle gegevens naar externe servers.
In de afgelopen jaren zijn hoogwaardige mobiele camera's in opkomst geweest in apparaten, variërend van smartphones, bewakingsapparatuur en robotvoertuigen, inclusief autonome auto's. Deze hebben allemaal geprofiteerd van de integratie van AI- en beeldsignaalverwerkingsengines (ISP). Machine Learning (ML) wordt niet alleen gebruikt om de kwaliteit van de video/afbeeldingen die door camera's zijn vastgelegd te verbeteren, maar ook om video-inhoud te begrijpen zoals een mens objecten, gebeurtenissen en zelfs acties in een frame kan detecteren, herkennen en classificeren.
De vraag naar edge AI-chipsets voor machine-vision- en menselijke kijktoepassingen op het apparaat wordt voornamelijk aangedreven door smartphones, robotvoertuigen, auto's, consumentenelektronica, mobiele platforms en vergelijkbare edge-servermarkten. Smartphones en automobielzijn de dominante drijfveren vanwege hun snelste groei en grootste volumeverzending en omzet in edge vision computing. Volgens OMDIA zal volgens OMDIA alleen al het marktsegment voor mobiele telefoons naar verwachting meer dan 50% van de wereldwijde edge AI-chipsetmarkt in 2025 uitmaken. TRACTICA.
Een AI-aangedreven camerasensor is een nieuwe technologie die fabrikanten zoals Sony, Google, Apple, Samsung, Huawei, Honor, Xiaomi, Vivo, Oppo en anderen integreren bij elke lancering van hun nieuwe smartphones. Het bouwen van AI-uitgeruste camera's omvat het toepassen van technologieën van traditionele beeldsignaalverwerkingstechnieken (ISP) tot moderne computervisie en diepgaande machine learning-netwerken. ISP's voeren doorgaans beeldverbetering uit en zetten de een-kleurcomponent per pixel-uitvoer van een onbewerkte beeldsensor om in de RGB- of YUV-afbeeldingen die elders in het systeem vaker worden gebruikt.
Een ISP kan, in combinatie met een op AI gebaseerde computer vision-processor, gezamenlijk robuustere beeld- en computerverwerkingsmogelijkheden leveren dan een stand-alone ISP. Traditioneel zijn ISP's afgestemd op het verwerken van afbeeldingen die bedoeld zijn voor menselijke weergave. Bij het afhandelen van applicaties waarbij zowel machine-vision als human-vision-applicaties betrokken zijn, is een functionele verschuiving vereist om zowel traditionele als deep learning-gebaseerde computer vision-algoritmen efficiënt en effectief uit te voeren.
Tegenwoordig zijn veel op AI gebaseerde cameratoepassingen afhankelijk van het verzenden van afbeeldingen en video's naar de cloud voor analyse, waardoor de verwerking van gegevens langzaam en onveilig wordt. Bovendien moeten fabrikanten gespecialiseerde DSP- of GPU-processors op apparaten installeren om de extra rekenkracht aan te kunnen. Een meer gestroomlijnde oplossing voor vision edge computing is het gebruik van speciale, energiezuinige en goed presterende AI-processorchips die in staat zijn om diepgaande algoritmen te verwerken voor verbetering en analyse van de beeldkwaliteit op het apparaat. Een van die oplossingen is de Gyrfalcon Technology AI-co-processorchips.
Menselijke zintuigen
Het uiteindelijke doel van een op AI gebaseerde camera is om de menselijke ogen en hersenen na te bootsen en door middel van kunstmatige intelligentie te begrijpen wat de camera voor ogen heeft. Met AI uitgeruste cameramodules bieden duidelijke voordelen ten opzichte van standaardcamera's door de verbeterde beelden vast te leggen EN ook beeldanalyse, inhoudbewust en gebeurtenis-/patroonherkenning uit te voeren, allemaal in één compact systeem. AI-aangedreven camera's veranderen uw smartphone-snapshots in foto's van DSLR-kwaliteit.
De behoefte aan AI op edge-apparaten is gerealiseerd en de race om geïntegreerde en edge-geoptimaliseerde chipsets te ontwerpen is begonnen. AI-verwerking op het edge-apparaat, met name AI vision computing, omzeilt privacyproblemen en vermijdt de snelheid, bandbreedte, latentie, stroomverbruik en kosten van cloud computing. Aangezien de verzending van AI-uitgeruste apparaten met een groeiende vraag naar hogere rekenkracht snel toeneemt, is de behoefte aan AI-versnellingschips aan de rand gerealiseerd.
Mobiele camera's uitgerust met AI-mogelijkheden kunnen nu spectaculaire beelden vastleggen die wedijveren met geavanceerde high-end DSLR-camera's. Vanwege de compacte vormfactor van edge- en mobiele apparaten kunnen slimme camera's echter geen grote beeldsensoren of lenzen dragen. Deze uitdaging dwingt fabrikanten om computationele beeldverwerkingstechnologie te pushen om de kwaliteit van het beeld naar een hoger niveau te tillen door gezamenlijk ontwerp van beeldopname, beeldreconstructie en beeldanalysetechnieken. De komst van AI en deep learning hebben gezorgd voor een alternatieve beeldverwerkingsstrategie voor zowel beeldkwaliteitsverbetering als machine-vision-toepassingen zoals objectdetectie en -herkenning, inhoudsanalyse en zoeken, en computationele beeldverwerking.
Deep Learning
Deep learning (DL) is een tak van machine learning-algoritmen die gericht is op het leren van de hiërarchische representaties van gegevens. DL heeft een prominente superioriteit getoond ten opzichte van andere algoritmen voor machine learning in veel domeinen van kunstmatige intelligentie, zoals computervisie, spraakherkenning en natuurlijke taalverwerking. Over het algemeen wordt het sterke vermogen van DL om substantiële ongestructureerde gegevens aan te pakken toegeschreven aan de volgende drie bijdragen: (1) de ontwikkeling van efficiënte computerhardware, (2) de beschikbaarheid van enorme hoeveelheden gegevens en (3) de vooruitgang van geavanceerde algoritmen .
Vanwege een lage resolutie, onnauwkeurige apparatuur of zware weers- en omgevingsomstandigheden; vastgelegde beelden zijn onderhevig aan lage kwaliteit, mozaïekvorming en ruisartefacten die de kwaliteit van de informatie verminderen. On-device superresolutie (SR), demosaicing, denoising en high dynamic range (HDR) procedures worden vaak aangevuld met CMOS-sensoren om de beeldkwaliteit te verbeteren door gebruik te maken van geavanceerde neurale netwerkalgoritmen met een geïntegreerde, hoogwaardige, kosteneffectieve, en energiezuinige AI-co-processorchip.
Een intelligente beeldsensor in een AI-camera kan vastgelegde afbeeldingen en video's verwerken, verbeteren, reconstrueren en analyseren door niet alleen een traditionele ISP-engine op te nemen, maar ook door gebruik te maken van opkomende deep learning-gebaseerde machine vision-netwerken in de sensor zelf, volgens Edge AI en Vision Alliance.
Een goed presterende neurale netwerkversnellerchip is een aantrekkelijke kandidaat om te combineren met beeldsignaalverwerkingsfuncties die in het verleden werden afgehandeld door een zelfstandige ISP. De output van de CMOS-sensor kan worden voorbewerkt door een ISP om lensvervorming, pixel- en kleurcorrecties en ruisonderdrukking te corrigeren voordat deze wordt doorgestuurd naar een deep learning vision-processor voor verdere analyse.
Deze opkomende intelligente sensoren vangen niet alleen licht, maar ze leggen ook de details, betekenis, begrip van de scène en informatie van het licht voor hen vast.
Edge Co-processing
Een AI-aangedreven camera die gebruik maakt van een speciale co-processorchip, zoals die van Gyrfalcon, met innovatieve deep learning-algoritmen, kan een op visie gebaseerde oplossing leveren met ongeëvenaarde prestaties, energie-efficiëntie, kosteneffectiviteit en schaalbaarheid voor intelligente CMOS-sensoren, met name in de snelle -groeiende en dominante markten voor smartphones en auto's. Een geavanceerde ISP-pijplijn kan worden vervangen door een enkel end-to-end deep learning-model dat is getraind zonder enige voorkennis over de sensor en optica die in een bepaald apparaat worden gebruikt.
Een AI-beeldcoprocessorchip met een diepgaande CNN-architectuur en multi-scale multi-mode superresolutie (SR) -mogelijkheden kan verschillende opschalingsfactoren, beeldformaten en kwantisatieniveau-opties ondersteunen, terwijl het in staat is om in verschillende beeldverbeteringen te werken modi afhankelijk van de doeltoepassingen en prestatie-eisen. Sommige van deze mogelijkheden kunnen multi-scale Super-Resolution/Zoom (SR Zoom), multi-type High Dynamic Range (HDR), AI-gebaseerde of pre-processing-gebaseerde ruisonderdrukkingsalgoritmen, of een combinatie van een of meer van deze omvatten. ondersteunde functies.
Een AI-aangedreven cameramodule met een geïntegreerde beeld-co-processorchip kan 4K ultra-high-definition (UHD) genereren bij hoge framesnelheden met verbeterde PSNR, superieure visuele kwaliteit en lagere kosten vergeleken met conventionele toonaangevende CNN-gebaseerde SR-processors.
De opkomende technologietrend voor slimme CMOS-beeldsensoren is om ISP-functionaliteit en deep learning-netwerkprocessor samen te voegen tot een uniforme end-to-end AI-co-processor. Een AI-beeldco-processor kan in een cameramodule worden geïntegreerd door rechtstreeks gebruik te maken van onbewerkte gegevens van de sensoruitvoer om beelden van DSLR-kwaliteit te produceren, evenals zeer nauwkeurige computervisieresultaten.
Het hebben van een speciale AI-beeldcoprocessor op het apparaat biedt tal van voordelen, waaronder verbeterde zichtkwaliteit, hogere prestaties, verbeterde privacy, verminderde bandbreedte en latentie, minder CPU-berekeningsbelasting, efficiënt energieverbruik en minder stuklijstkosten voor het uitvoeren van kritieke vision-applicaties in het echt -time, always-on, overal onafhankelijk van de internetverbinding.
Manouchehr Rafie, Ph.D.
Vice President of Advanced Technologies, Gyrfalcon Technology
Over de auteur
Dr. Rafie is de Vice President of Advanced Technologies bij Gyrfalcon Technology Inc. (GTI), waar hij de geavanceerde technologieën van het bedrijf aanstuurt in de convergentie van deep learning, AI Edge computing en visuele data-analyse. Hij is ook de co-voorzitter van de opkomende Video Coding for Machines (VCM) volgens MPEG-VCM-normen. Voordat hij bij GTI kwam, bekleedde Dr. Rafie executive/senior technische functies in verschillende startups en grote bedrijven, waaronder VP Access Products bij Exalt Wireless, Group Director & fellow-track posities bij Cadence Design Services, en adjunct-professor aan de UC Berkeley University. Hij heeft meer dan 90 publicaties op zijn naam staan en was voorzitter, docent en redacteur van een aantal technische conferenties en beroepsverenigingen over de hele wereld.