Jij bent de data

Waarom hebben we in de eerste plaats gegevens nodig? Om een ​​goed functionerende software-stack voor automatisch rijden te creëren, is een herkenningsengine nodig die verantwoordelijk is voor het zo goed mogelijk waarnemen van de werkelijkheid, en van waaruit een nauwkeurige virtuele modelruimte kan worden gebouwd. Om dit te doen, leunen we sterk op state-of-the-art AI-oplossingen. De huidige trend in de branche is om enorme hoeveelheden gegevens te verzamelen en te labelen. Toch duiken er altijd een paar vragen op… Hoeveel data zijn er nodig? Hoe weten we dat dit de beste strategie is?

Naar schatting rijden er ongeveer 1,4 miljard voertuigen over de wegen in de wereld en reizen mensen elk jaar meer dan 23 biljoen mijl over de weg. Een rapport uit 2016 toonde aan dat Amerikanen jaarlijks gemiddeld 17.600 minuten rijden. Volgens die schattingen genereren Amerikanen elk jaar 1,8 TB aan gegevens in hun voertuigen, zonder de ruwe sensorgegevens mee te nemen. Waarom is dit belangrijk? Welnu, McKinsey gelooft dat er tegen 2030 wel $ 750 miljard aan waarde aan voertuiggegevens kan zijn. Gezien deze cijfers is het geen verrassing dat bedrijven astronomische bedragen uitgeven om gegevens te kopen. Er moet echter een slimmere manier zijn om gegevens te verzamelen en de kosten laag te houden, vooral nadat de economie een grote klap kreeg door COVID19.

Heb je een n+1 afbeelding van hetzelfde nodig?

De slimmere manier

We denken zeker dat er een slimmere manier is om data te verzamelen voor onze softwarestack. Bedrijven die vooruit kijken, zijn al bezig met een oplossing om alleen gegevens te verzamelen uit scenario's waarin de herkenningsengine niet naadloos werkt en laten die waarbij het soepel verloopt, achterwege.

Dit vereist een herkenningsengine die kan zien wanneer deze niet optimaal presteert. Om deze reden moet een op vertrouwen gebaseerde prestatie-evaluatie worden geïmplementeerd die zowel online als offline kan worden uitgevoerd in een nabewerkingsstap. Dit betekent in feite dat in plaats van elk afzonderlijk frame of stuk gegevens te labelen, u alleen diegene behandelt die waardevolle informatie bevat – de hoekgevallen – wat tijd en middelen bespaart. Hoekgevallen zijn voorbeelden waarin een software slecht zou presteren of een slechte beslissing zou nemen. Met deze voorbeelden kan de software worden verfijnd door ofwel de software te verbeteren of de aanzienlijk verminderde verzamelde gegevens te gebruiken voor verdere training van de neurale netwerken.

De lijst met hoekkoffers verandert bijvoorbeeld dynamisch: tegenwoordig is een olifant op de weg misschien een hoekkoffer, maar als je al veel afbeeldingen van olifanten op de weg hebt, is het geen hoekkoffer meer. Een hoekkofferlijst hoort altijd bij een specifieke versie van de software en er bestaat niet zoiets als een universele hoekkofferlijst. Daarom is een feedbacklus een essentieel onderdeel van de oplossing: de verzamelde hoekgevallen worden geannoteerd en zullen het algoritme verbeteren en het verbeterde algoritme zal nieuwe hoekgevallen definiëren op basis van de overeenkomstige vertrouwelijkheden en inconsistenties.
Bovendien moet de software zo vaak mogelijk in echte wegomstandigheden worden getest. De vloot van AImotive is actief op drie continenten, wat betekent dat we testen in verschillende rijculturen en in deze uiteenlopende omstandigheden een groot percentage van mogelijke verkeerssituaties tegenkomen. Onze oplossing stelt ons ook in staat om onze tests verder uit te breiden met een vloot die door een derde partij wordt onderhouden. Vooral omdat ons systeem ook gegevens kan verzamelen als de auto niet in de zelfrijdende modus staat en de software alleen op de achtergrond draait. Deze niveaus worden noodzakelijk geacht om veilig een hoger niveau van automatisering te kunnen invoeren.

Het derde en laatste onderdeel dat nodig is om op een slimme manier gegevens te verzamelen, is een infrastructuur die deze pijplijn ondersteunt en verwerkt. Dit wordt gedekt door onze on-premises serverfarm, die eenvoudig kan worden opgeschaald naar elke cloudprovider in geval van een grotere computervraag.

Door op drie continenten te testen, kunnen we gegevens verzamelen uit verschillende rijculturen

Het doel is om cycli te versnellen

In verschillende huidige trends is de hele pijplijn opgebouwd uit incrementele stappen. Na het verzamelen en labelen van een bepaalde hoeveelheid data worden de betrokken neurale netwerken automatisch verder getraind. Na afloop van de training wordt het verbeterde neurale netwerk gebenchmarkt met een aangepaste evaluatiedataset en als de kwaliteit van het netwerk beter is, wordt deze vrijgegeven. Het doel hier is om de iteraties zo kort mogelijk te houden en de cycli te versnellen door de workflow volledig te automatiseren.

Dit is niet alleen een slimmere en efficiëntere methode, maar ook een die helpt om kosten te besparen , wat cruciaal is – vooral nu de industrie nog steeds herstelt van de schok veroorzaakt door COVID19. Bovendien zouden bedrijven hun uitgaven verder kunnen verminderen door geautomatiseerde annotatie te gebruiken in plaats van handmatige annotatie.

Het lijdt geen twijfel dat de juiste Machine Learning Pipeline essentieel is om nieuwe functies op de markt te brengen.

Dit voorbeeld toont kortere iteraties en snellere cycli betekenen meer waardetoevoegende functies in de auto

Lajos Németh
Chief Operating Officer, AImotive

0

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *