Een diep neuraal netwerk heeft een tweetrapsbenadering om de uitdagingen op het gebied van lidarverwerking aan te pakken.

Noot van de redactie: dit is het laatste bericht in onze NVIDIA DRIVE Labs-serie, waarin een technisch gerichte blik wordt geworpen op de uitdagingen van individuele autonome voertuigen en hoe NVIDIA DRIVE deze aanpakt. Bekijk al onze berichten over auto's, hier.

Lidar kan autonome voertuigen laserfocus geven.

Door lasersignalen van de omgeving te weerkaatsen, kunnen deze sensoren een zelfrijdende auto in staat stellen een gedetailleerd en nauwkeurig 3D-beeld te maken van wat er omheen is.

Traditionele methoden voor het verwerken van lidar-gegevens vormen echter aanzienlijke uitdagingen. Deze omvatten beperkingen in de mogelijkheid om verschillende soorten objecten, scènes en weersomstandigheden te detecteren en classificeren, evenals beperkingen in prestaties en robuustheid.

In deze aflevering van DRIVE Labs introduceren we onze multi-view LidarNet deep neuraal netwerk, dat gebruikmaakt van meerdere perspectieven of weergaven van het tafereel rond de auto om de traditionele beperkingen van op lidar gebaseerde verwerking te overwinnen.

AI-aangedreven oplossingen

AI in de vorm van op DNN gebaseerde benaderingen is de go-to-oplossing geworden om traditionele lidar-perceptie-uitdagingen aan te pakken.

Eén AI-methode maakt gebruik van lidar-DNN's die top-down of “bird's eye view” (BEV) objectdetectie uitvoeren op lidar-puntenwolkgegevens. Een virtuele camera die op enige hoogte boven het tafereel is geplaatst, vergelijkbaar met een vogel die overvliegt, projecteert 3D-coördinaten van elk gegevenspunt opnieuw in dat virtuele camerabeeld via orthogonale projectie.

BEV lidar-DNN's gebruiken 2D-convoluties in hun lagen om dynamische objecten zoals auto's, vrachtwagens, bussen, voetgangers, fietsers en andere weggebruikers te detecteren. 2D-convoluties werken snel, dus ze zijn zeer geschikt voor gebruik in realtime toepassingen voor autonoom rijden.

Deze benadering kan echter lastig worden wanneer objecten van bovenaf op elkaar lijken. In BEV kunnen voetgangers of fietsen bijvoorbeeld lijken op objecten zoals palen, boomstammen of struiken, wat kan leiden tot waarnemingsfouten.

Een andere AI-methode gebruikt 3D-lidar-puntenwolkgegevens als invoer voor een DNN dat 3D-convoluties in zijn lagen gebruikt om objecten te detecteren. Dit verbetert de nauwkeurigheid omdat een DNN objecten kan detecteren met behulp van hun 3D-vormen. 3D-convolutionele DNN-verwerking van lidar-puntenwolken is echter moeilijk in realtime uit te voeren voor toepassingen voor autonoom rijden.

Voer Multi-View LidarNet in

Om de beperkingen van beide te overwinnen Op AI gebaseerde benaderingen ontwikkelden we onze multi-view LidarNet DNN, die in twee fasen werkt. De eerste fase extraheert semantische informatie over de scène met behulp van lidar-scangegevens in perspectiefweergave (Figuur 1). Hiermee wordt een 360-graden surround-lidar-scan uitgepakt, zodat het lijkt alsof het hele panorama zich voor de zelfrijdende auto bevindt.

Deze eerste-fase semantische segmentatiebenadering presteert zeer goed voor het voorspellen van objectklassen. Dit komt omdat de DNN objectvormen beter kan observeren in perspectief (bijvoorbeeld de vorm van een wandelende mens).

De eerste fase segmenteert de scène zowel in dynamische objecten van verschillende klassen, zoals auto's, vrachtwagens, bussen, voetgangers, fietsers en motorrijders, evenals statische componenten van het wegbeeld, zoals het wegdek, trottoirs, gebouwen, bomen en verkeersborden.


Figuur 1. LidarNet-perspectief met meerdere weergaven.


Afbeelding 2. Multi-view LidarNet top-down vogelperspectief (BEV).

De semantische segmentatie-output van LidarNet's eerste trap wordt vervolgens geprojecteerd in BEV en gecombineerd met hoogtegegevens op elke locatie, die wordt verkregen uit de lidar-puntenwolk. De resulterende output wordt toegepast als input voor de tweede trap (Figuur 2).

DNN van de tweede fase wordt getraind op BEV-gelabelde gegevens om top-down 2D-begrenzingsvakken rond objecten die door de eerste fase worden geïdentificeerd, te voorspellen. Deze fase gebruikt ook semantische en hoogte-informatie om objectinstanties te extraheren. Dit is gemakkelijker in BEV omdat objecten elkaar niet afsluiten in deze weergave.

Het resultaat van het aan elkaar koppelen van deze twee DNN-stadia is een lidar-DNN dat alleen lidar-gegevens verbruikt. Het maakt gebruik van end-to-end deep learning om een ​​rijke semantische segmentatie van de scène uit te voeren, compleet met 2D-begrenzingsvakken voor objecten. Door dergelijke methoden te gebruiken, kan het kwetsbare weggebruikers, zoals motorrijders, fietsers en voetgangers, zeer nauwkeurig en volledig detecteren. Bovendien is de DNN zeer efficiënt – inferentie loopt op 7 ms per lidar-scan op het NVIDIA DRIVE™AGX-platform.

Naast multi-view LidarNet bevat onze lidar-verwerkingssoftwarestack een lidar-objecttracker. De tracker is een op computervisie gebaseerd naverwerkingssysteem dat de BEV 2D-begrenzingsvakinformatie en lidar-puntgeometrie gebruikt om 3D-begrenzingsvakken voor elke objectinstantie te berekenen. De tracker helpt ook bij het stabiliseren van DNN-misdetecties per frame en berekent, samen met een low-level lidar-processor, geometrische hekken die harde fysieke grenzen vertegenwoordigen die een auto moet vermijden.

Deze combinatie van AI-gebaseerd en traditioneel op computervisie gebaseerde methoden vergroten de robuustheid van onze lidar-perceptiesoftwarestack. Bovendien kan de rijke waarnemingsinformatie van lidarwaarneming worden gecombineerd met camera- en radardetecties om nog robuustere autonome systemen van niveau 4 tot niveau 5 te ontwerpen.

Neda Cvijetic
Senior Manager, Autonomous Vehicles, NVIDIA

0

Geef een reactie