Waarom een mentaliteitsverandering over het vastleggen van de juiste gegevens essentieel is voor vooruitgang in machine learning
Machine learning verandert snel de manier waarop software en algoritmen worden ontwikkeld. En data is de levensader van de machine learning-revolutie. We spraken met Roland Memisevic, senior director of engineering bij Qualcomm Canada en onderdeel van Qualcomm AI Research, om de laatste updates te krijgen over het maken van datasets op schaal, datagestuurde AI, de nieuwste AI-onderzoekstrends, de grote AI-uitdagingen die moeten worden overwonnen, en wat de toekomst biedt in AI.
Wat heeft je naar AI geleid? Kun je ons iets vertellen over je werk met Geoffrey Hinton en je latere academische carrière?
Ik ben het klassieke geval. Toen ik ongeveer 17 jaar oud was, las ik een AI-boek van Douglas Hofstadter dat echt mijn interesse wekte en me verslaafd maakte aan AI. In gedachten dacht ik aan C-3PO en het maken van mensachtige robots voor metgezellen. Dit boeit me nog steeds, en ik geloof dat we op een bepaald moment in ons leven op zijn minst een nauwkeurige menselijke interface zullen zien die de wereld begrijpt en op natuurlijke wijze met ons kan communiceren via een scherm, zo niet een echte robot. We gaan intelligentie beter begrijpen door intelligente systemen te bouwen.
Ik raakte rond 2002 geïnteresseerd in neurale netwerken, omdat het een vorm van AI was die echt leek te werken. Toen ik besloot om een Ph.D. en een academische carrière in neurale netwerken nastreven, waren er eigenlijk niet veel kansen of financiering voor dit onderzoek. Een van de plaatsen waar toonaangevend onderzoek werd gedaan, was het laboratorium van Geoffrey Hinton in Toronto, waar ik het geluk had om mee te doen. Omdat de neurale netwerktheorie een beetje rommelig was, niet zo principieel of gebaseerd op elegante wiskunde, werd het met scepsis ontvangen – je moest absoluut een technische mentaliteit hebben om om te gaan met de willekeur en het verkennende karakter van het ontwikkelen van neurale netwerken. Een deel daarvan bestaat nog steeds.
Wat was de aanleiding om TwentyBN te starten?
Rond 2008 werd het steeds duidelijker dat neurale netwerken een grote impact zouden hebben met spraak en een paar jaar later met computervisie. De enige twee ingrediënten die ontbraken om neurale netwerken te laten floreren, waren computergegevens en gelabelde gegevens. Dit was een enorme verrassing voor mij en veel van mijn collega's in die tijd.
Rond 2012 werd ik faculteitslid bij MILA, een onderzoeksinstituut in kunstmatige intelligentie in Montreal. In mijn MILA-onderzoek stond ik versteld van het feit dat grote, gelabelde datasets zo goed konden werken en ik had het gevoel dat er iets kapot was in de traditionele machine learning-workflow waarbij onderzoekers herhaalden dat de modelarchitectuur werd gewijzigd op alle beschikbare gegevens. Voor TwentyBN hadden we een workflow voor ogen waarbij je je meer op de data dan op het model concentreert – een datacentrische benadering waarbij onderzoekers mogelijkheden in een AI-systeem creëren of verbeteren, niet door architecturen aan te passen, maar door creatief te zijn bij het genereren van data. Naarmate gegevens groeien, wordt de neurale netwerkarchitectuur minder belangrijk. Veel van de AI-systemen die we hebben gemaakt, zijn rekenkundig vrij eenvoudig en werken goed op randapparatuur met beperkte stroomvoorziening, hoewel ze rekenkundig redelijk complexe taken oplossen. TwentyBN is opgericht als een bedrijf waarbij gegevens centraal staan.
Waarom was AI-inferentie op het apparaat een belangrijk onderwerp voor TwentyBN?
In veel interactieve toepassingen moet de AI de wereld communiceren en begrijpen via sensoren, zoals camera's en microfoons, en onmiddellijk reageren, dus de latentie moet laag zijn. Bovendien is privacy een grote zorg, dus het verwerken en bewaren van de persoonlijke gegevens op het apparaat is vereist. Bij TwentyBN hebben we een fitness-app ontwikkeld waarbij een AI-coach je motiveert en feedback geeft terwijl je aan het sporten bent, maar je wilde zeker niet dat deze videobeelden naar de cloud werden gestuurd.
Over het algemeen geldt dat, aangezien elke sensorische verwerking uiteindelijk aan de rand plaatsvindt en er tenminste een zekere mate van verwerking plaatsvindt met het onbewerkte sensorsignaal, kan worden gezegd dat er altijd enige gevolgtrekking is aan de betrokken rand. Aan de andere kant is er meestal een cloudcomponent voor geaggregeerde gegevens of rekenintensieve verwerking. Dus in praktisch elk scenario hebben we tegenwoordig te maken met hybride vereisten, en bij TwentyBN hebben we ervoor gezorgd dat beide componenten – edge en cloud – beschikbaar waren in onze applicaties.
Je hebt door de jaren heen unieke datasets ontwikkeld. Waarom?
Intuïtief leek het het juiste om te doen. Wanneer u de datasourcing centraal stelt in alles in plaats van modelaanpassingen, wordt u automatisch gepusht om de juiste vragen te stellen. Als onderzoeker of ontwikkelaar van neurale netwerken moet je nadenken over de gegevens die je nodig hebt in plaats van de gegevens die er zijn. Tot voor kort probeerden echter niet veel mensen dit probleem op te lossen – het initiatief van Andrew Ng met “MLOps” wint echt aan kracht en creëert een wake-up moment voor de AI-gemeenschap. Voor TwentyBN evolueerde datasourcing als een functie van onderzoeksbehoeften. Wanneer het AI-systeem is getraind om een bepaalde categorie taken op te lossen, ontstaan er vanzelf vervolgtaken, die nieuwe interfaces voor datasourcing vereisen, die vervolgens leiden tot nieuwe mogelijkheden, enzovoort. Het is een cyclus.
Als onderzoeker of ontwikkelaar van neurale netwerken moet je nadenken over de gegevens die je nodig hebt in plaats van de gegevens die er zijn. Roland Memisevic
Hoe was u in staat om de verzameling van hoogwaardige gelabelde gegevens tegen lage kosten op te schalen?
Operationaliseren stond vanaf het begin centraal. We hebben de tooling gebouwd voor ons crowd-actingplatform waar crowdworkers worden betaald om de gevraagde concepten van onderzoekers op te nemen en op video vast te leggen. Dit was onze belangrijkste focus — het creëren van de software die speciaal is bedoeld voor dit doel van het verzamelen van gegevens. We hebben het efficiënt en schaalbaar gemaakt, intuïtieve gebruikersinterfaces toegevoegd en natuurlijk snel herhaald om in te spelen op de behoeften van de klant, inclusief onze eigen behoeften.
Hoe kan de AI-onderzoeksgemeenschap hiervan profiteren datasets?
Twee populaire datasets die we bij TwentyBN hebben gemaakt en in licentie hebben gegeven, waren Something Something (e-mail hier voor interesse) en Jester (e-mail hier voor interesse).
Welke rol kunnen deze datasets spelen bij het bevorderen van AI-onderzoek bij Qualcomm AI-onderzoek?
Er zijn twee aspecten die een rol kunnen spelen. Ten eerste zijn de bestaande datasets, zoals gebarenbesturing, nuttig voor de ontwikkeling van neurale netwerken, en ten tweede kan het crowd-acting platform efficiënt nieuwe gegevens op schaal creëren. De bestaande gegevens zijn ook nuttig vanuit het perspectief van transfer learning. We hebben datasourcing altijd op een “cumulatieve” manier gebruikt, zodat een neuraal netwerk wordt getraind op de meeste gegevens die in de loop der jaren zijn verzameld en is afgestemd op use case-specifieke gegevens.
<Welke grote uitdagingen moeten er nog worden overwonnen bij het verzamelen van gegevens?
Een grote uitdaging ligt aan de culturele kant in termen van het aannemen van een compleet andere mindset en workflow om AI-systemen te bouwen. Het overwint de diepgewortelde denkwijze die zo gewoon is in de AI-gemeenschap, waar je sleutelt aan de neurale netwerkarchitectuur in plaats van je te concentreren op het verkrijgen van goede gegevens. Zodra je je realiseert dat data de sleutel is, is het een kwestie van operationaliseren van het verzamelen van goede data en het bouwen van veel tooling.
Een andere grote uitdaging is dat de dingen niet mooi in hokjes worden opgedeeld in AI. Uitzoeken wat goede gegevens zijn, is vaak erg domeinspecifiek voor de toepassing. Als gevolg hiervan is er een enorm voordeel aan verticale integratie waarbij de gegevens, gegevensverzameling, neuraal netwerkontwerp en toepassing allemaal samen worden gedaan. Er is een zeer sterke feedbacklus wanneer je dit end-to-end begrip hebt en je realiseert welke gegevens je nodig hebt om te blijven verbeteren. De kleine ontdekkingen die je doet door middel van applicatiefeedback geven bijvoorbeeld informatie over de gegevens die je moet verzamelen.
Qualcomm Technologies bracht jou en de rest van het eersteklas AI-onderzoeksteam van TwentyBN onlangs op -bord. Wat zijn uw indrukken tot nu toe van Qualcomm AI Research?
Qualcomm heeft een no-nonsense cultuur. Er is een intellectuele eerlijkheid en openheid die het spreken van de waarheid over technische zaken aanmoedigt, ongeacht politiek of anciënniteit. Technologische beslissingen worden genomen op basis van de feiten. Voor mij was dat mooi om te zien. Het is absoluut een technische cultuur.
Ik realiseer me ook hoe sterk de positie van Qualcomm Technologies is als edge compute-speler. Het is een geweldige plek om te zijn, omdat de belangrijkste gegevens altijd aan de rand worden gegenereerd en dat is waar je wilt dat AI draait.
Je hebt gewerkt op het snijvlak tussen geavanceerd AI-onderzoek en consumentenproducten. Wat is de sleutel tot het succesvol op de markt brengen van computervisie-innovatie?
Wat we bij TwentyBN hebben geleerd bij het ontwikkelen van de fitnesstoepassing, is dat je verticaal moet integreren in de end-to-end-stack en deze moet operationaliseren. het gegevensverzamelingsproces om efficiënt en principieel te worden.
Kijkend naar de toekomst, wat zijn op dit moment de meest uitdagende problemen op het gebied van AI?
Een grote uitdaging is hoe je neurale netwerken, die een parallelle puinhoop zijn, meer laat nadenken. AI is een paradigmaverandering in computing, waarbij we van seriële computing en een Von Neumann-architectuur naar parallelle verwerking van deze grote parallelle rommel gaan.
Ik denk dat het logisch is om een 'derde rekenparadigma' te overwegen dat veel menselijker is. Menselijke hersenen verwerken gegevens op een zeer parallelle manier in tegenstelling tot seriële computers, maar mensen hebben ook de mogelijkheid om serieel te denken en te redeneren. Dit is een enorm onderzoeksprobleem om te begrijpen. Mensen hebben capaciteiten die veel superieur zijn aan AI, zoals creativiteit, gezond verstand en taal. Ik geloof dat een belangrijke reden voor deze mogelijkheden is dat de verwerking van menselijke symbolen plaatsvindt op een subsymbolisch substraat. Het vergroten van de mate van 'denken' die kan plaatsvinden in een subsymbolische, parallelle puinhoop is een onderzoeksgebied waar ik hoop dat we de komende jaren veel vooruitgang zullen zien. Hoewel het ons in staat stelt om die magische aspecten van menselijke cognitie beter te begrijpen, stelt het ons ook in staat om beter gebruik te maken van AI-versnellerhardware dan we vandaag doen.
In termen van voorspellingen, welke gebieden van AI verwacht u grote vooruitgang en opwindende doorbraken te zien?
Ik voorspel vooruitgang in systeem 2-cognitie, een weloverwogen type denken dat betrokken is bij focus, overleg, redenering of analyse, in neurale netwerken. Dit sluit aan bij dit derde computerparadigma-idee dat ik zojuist noemde.
AI zal ook onze huizen binnendringen en ze transformeren in slimme huizen met multimodale interactie. Er is veel werk om dit in productie te krijgen, maar ik verwacht veel vooruitgang, variërend van echt slimme tv's tot robots.
Bedankt Roland!
Bezoek de Qualcomm AI Research-pagina voor meer informatie over ons nieuwste onderzoek. En als je geïnteresseerd bent om ons team te komen versterken en op grote schaal impact wilt maken, solliciteer dan naar een van onze openstaande functies voor machine learning.