Onderzoekers van NVIDIA, University of Texas in Austin en Caltech ontwikkelden een eenvoudige, efficiënte en plug-and-play onzekerheid kwantificatiemethode voor de schattingstaak van de 6-DoF (vrijheidsgraden) object pose, met behulp van een ensemble van K vooraf getrainde schatters met verschillende architecturen en/of trainingsgegevensbronnen.
De onderzoekers presenteerden hun paper “Fast Uncertainty Quantification (“FastUQ”) for Deep Object Pose Estimation” op de 2021 International Conference on Robotics and Automation (ICRA 2021).
FastUQ richt zich op de onzekerheidskwantificering voor diepe objecten schatting stellen. Bij op diep leren gebaseerde schatting van de pose van objecten (zie NVIDIA DOPE), is een grote uitdaging dat op diep leren gebaseerde pose-schatters overmoedig kunnen zijn in hun pose-voorspellingen.
De twee onderstaande afbeeldingen zijn bijvoorbeeld de pose-schattingsresultaten voor het “Ketchup” -object van een DOPE-model in een manipulatietaak. Beide resultaten zijn zeer betrouwbaar, maar de linker is onjuist.
Een andere uitdaging die wordt aangepakt, is de sim2real-kloof. Doorgaans worden op deep learning gebaseerde pose-schatters getraind op basis van synthetische datasets (door NVIDIA ray tracing renderer, NViSII), maar we willen deze schatters in de echte wereld toepassen en de onzekerheid kwantificeren. De linker figuur is bijvoorbeeld van de synthetische NViSII-dataset en de rechter is van de echte wereld.
In dit project stellen we een ensemble-gebaseerde methode voor voor de snelle kwantificering van onzekerheid van op deep learning gebaseerde pose-schatters. Het idee wordt gedemonstreerd in de volgende twee figuren, waarbij in de linker de diepe modellen in het ensemble het niet met elkaar eens zijn, wat meer onzekerheid impliceert; en in de rechter zijn deze modellen het met elkaar eens, wat minder onzekerheid weerspiegelt.
Dit onderzoek is absoluut interdisciplinair en werd opgelost door de gezamenlijke inspanningen van verschillende onderzoeksteams bij NVIDIA:
- Het AI Algorithms-team onder leiding van Anima Anandkumar en de NVIDIA AI Robotics Research Lab in Seattle werkt aan de onzekerheidskwantificatiemethoden
- Het Learning and Perception Research-team onder leiding van Jan Kautz voor het trainen van de schattingsmodellen voor de pose van diepe objecten en het leveren van fotorealistische synthetische gegevens van NVIDIA's raytracing-renderer, NViSII
Voor het trainen van de diepe schatters en het genereren van de high-fidelity fotorealistische synthetische datasets, het team gebruikte NVIDIA V100 GPU's en NVIDIA OptiX (C++/CUDA back-end) voor versnelling.
FastUQ is een nieuwe snelle methode voor het kwantificeren van onzekerheid voor diepe objecthouding schatting, die efficiënt is, plug-and-play, en ondersteunt een algemene klasse van pose-schattingstaken. Dit onderzoek heeft mogelijk aanzienlijke gevolgen voor autonoom rijden en algemene autonomie, waaronder een robuustere en veiligere waarneming, en onzekerheidsbewuste controle en planning.
Ga voor meer informatie over het onderzoek naar de FastUQ-projectwebsite.
Ga naar de FastUQ-projectwebsite.
Bedankt aan Guanya Shi van Caltech voor zijn hulp bij de cijfers en tekst van deze blogpost.
Yuke Zhu
Onderzoeker, AI Algorithms Team, NVIDIA