Contents
We kunnen niet luisteren naar Newton die ons door de vroege dagen van de natuurkunde leidt, of naar Darwin die praat over de oorsprong van zijn 'Origins of Species'-werk. We kunnen echter horen over de beginjaren van kunstmatige intelligentie (AI) van een van de makers ervan, Yann LeCun. Yann is een vooraanstaand professor aan de NYU, de Chief AI Scientist bij Facebook, en een winnaar van de Association for Computing Machinery A.M. Turing Award, algemeen beschouwd als de “Nobelprijs voor Computing”, die hem samen met collega-winnaars Geoffrey werd uitgereikt. Hinton, een pionier in kunstmatige neurale netwerken, die momenteel zijn tijd verdeelt tussen Google Brain en de Universiteit van Toronto, en Yoshua Bengio, een van de meest gerespecteerde onderzoekers in deep learning en wetenschappelijk directeur van het Montreal Institute for Learning Algorithms. De drie worden door de media de 'Godfathers of AI' genoemd. Dus toen Intel's AI Tech Evangelist en New York Times-bestsellerauteur Abigail Hing Wen Yann interviewden in een recente aflevering van Intel over AI, was ik opgewonden om in de geschiedenis van het veld te duiken, gezien door de ogen van iemand die de zeer fundament waar ik en anderen vandaag nog aan werken.
Yann is vooral bekend om zijn werk in computervisie met behulp van convolutionele neurale netwerken, werk dat hij deed tijdens zijn tijd bij het legendarische Bell Labs, waardoor banken cheques konden lezen, gezichtsherkenning om telefoons te ontgrendelen, vroegtijdig noodremmen in moderne auto's, het detecteren van tumoren (en “covid-long”) in medische beelden, met behulp van een smartphonecamera om planten- en diersoorten te identificeren, de spraakherkenning waarmee mijn kinderen “Hey Google!” en nog veel, veel meer.
“Ik geloof niet in het concept van kunstmatige algemene intelligentie. Ik denk niet dat er zoiets bestaat als algemene intelligentie. Ik denk dat elke intelligentie enigszins gespecialiseerd is, inclusief menselijke intelligentie, zelfs als we zouden willen denken dat dat niet het geval is.”
-Yann LeCun
1940-1950: De geboorte van AI
In de podcast zegt Yann dat het idee van machine-intelligentie teruggaat naar het werk van, natuurlijk, Alan Turing in de jaren veertig en vijftig – iets waar ik eerder over heb geschreven toen ik het had over ethiek en AI. Turing maakte de weg vrij voor wat de traditionele computerwetenschap is geworden en legde de theoretische basis voor computers voor algemeen gebruik (we beschrijven ze eigenlijk als 'draaimachines'). In 1943 werd het eerste kunstmatige neuron voorgesteld door Warren McCulloch, een neurowetenschapper, en Walter Pitts, een logicus. Het paar stelde voor dat het soort acties dat plaatsvindt in neuronen kan worden gezien als een berekening, en daarom kunnen we ons voorstellen dat circuits van neuronen logisch kunnen redeneren.
Tegelijkertijd werkten onderzoekers aan het eind van de jaren veertig aan wat bekend werd als cybernetica, gedefinieerd door Norbert Wiener in 1948 – in wezen de wetenschap van hoe delen van een systeem met elkaar communiceren, wat de ideeën van autopoëse (een systeem dat in staat is tot zichzelf reproduceren en in stand houden), reguleren, leren en aanpassen. Samen zorgde dit onderzoek voor een golf van interesse in het veld.
In 1956 organiseerden Marvin Minsky, die later mede-oprichter was van het AI-laboratorium van het Massachusetts Institute of Technology, en John McCarthy, die later hielp bij het opzetten van het Stanford AI Laboratory, een conferentie in Dartmouth College met de hulp van twee wetenschappers van IBM . Op de conferentie debuteerden Allen Newell en Herbert A. Simon met hun computerprogramma Logic Theorist, dat opzettelijk is ontworpen om geautomatiseerd te redeneren, en dus de term “kunstmatige intelligentie” was geboren; dit was ook de geboorte van het 'grote schisma', waarbij symbolisch redeneren steeds belangrijker werd.
1960s-1980s: Learning the Limits of AI
Zoals Yann de geschiedenis vertelt, was de academische gemeenschap ongeveer twintig jaar lang opgesplitst in twee categorieën: een die zich liet inspireren door de biologie en het menselijk brein, en een die inspiratie putte uit de wiskunde, door symbolische redeneersystemen te creëren (denk terug aan de middelbare school). paden en stelling bewijzen). Toen Yann begin jaren tachtig zijn carrière begon, zei hij dat in wezen niemand werkte aan wat we vandaag de dag zouden beschouwen als machine learning (symbolisch redeneren was in opkomst).
In 1986 kreeg het veld hernieuwde belangstelling vanwege een paper met de titel “Leren van representaties door fouten terug te verspreiden” in het tijdschrift Nature van David E. Rumelhart (UC San Diego), Geoffrey Hinton (toen bij Carnegie-Mellon) en Ronald J. Williams (UC San Diego), waarin de potentiële succesvolle toepassingen van neurale netwerken en het backpropagation-leeralgoritme werden aangetoond. Deze opwinding werd echter enigszins getemperd omdat uit onderzoek al snel bleek dat het soort toepassingen dat kon worden opgelost relatief klein waren, omdat dergelijke systemen veel gegevens nodig hebben om goed te worden getraind. Destijds waren gegevens duur – ze konden niet snel worden verzameld uit enorme internetarchieven of open-source datasets zoals vandaag.
1990s-2010s: The Dark Years
Yann beschrijft de komende tien jaar als een “zwarte periode” in het veld en zei dat neurale netwerken niet alleen werden genegeerd, maar ook werden bespot. Hij stopte zelfs met werken aan neurale netwerken tussen 1996 en 2002, terwijl hij grapte met zijn toekomstige mede-winnaars van de Turning Award dat hun “deep learning-samenzwering” op een dag zou worden geaccepteerd door de bredere onderzoeksgemeenschap, terwijl hij werkte aan projecten zoals het DjVu-beeldcompressieformaat met hedendaagse onderzoeker Léon Bottou tijdens hun tijd bij AT&T Labs.
“Mensen zoals ik werden soms gezien als marginale gekken, die zich nog steeds vastklampten aan neurale netwerken.”
– Yann LeCun
Abigail stelt Yann een vraag die me al lang bezighoudt: waarom deed hij niet het verstandige: opgeven en zich bij de mainstream aansluiten? Yann zegt dat hij zich tijdens deze periode vastklampte aan wat hij beschrijft als “een soort heuristisch geloof” dat neurale netwerken toch gerechtvaardigd zouden worden. Dit klinkt nogal als geloof, maar zelfs in zijn wildernisjaren kon hij troost putten uit empirisch bewijs. Hij merkt op dat de beste MNIST-benchmarks (een dataset van handgeschreven cijfers) altijd werden bereikt met behulp van convolutionele neurale netwerken, hoewel ondersteunende vectormachines op dat moment heel dichtbij kwamen. Volgens hem is de beperking van traditionele rekenmethoden te wijten aan de afhankelijkheid van handmatige engineering van een “front-end” of een “functie-extractor” die is ontworpen om de meest opvallende elementen van een beeld- of spraaksignaal vast te leggen. Daarentegen kan deep learning, vooral op convolutionele neurale netwerken, het systeem end-to-end trainen, waarbij het algoritme de “functie-extractors” zo vormgeeft dat ze optimaal zijn voor een bepaalde taak.
Zie het als volgt: met de hand ontworpen functies zijn briljant ontworpen door zeer slimme mensen, net als een kunstenaar die een zeer realistisch portret in olieverf schildert, maar het backpropagation-algoritme van LeCun stelt de gegevens in staat om de “functie-extractors” te vormen die bij de taak passen – sorteren van hoe zachtheid van een zitzak het mogelijk maakt om zich perfecter naar het lichaam te vormen dan de meest briljant ontworpen designmeubels.
“Deze realisatie” (die het leren kenmerkt door middel van een optimalisatieprocedure gevormd door gegevens van een specifiek probleem kan beter zijn dan deskundig ontworpen functies) zegt Yann, “het leek een voor de hand liggend idee, en dat is het nu ook, maar het duurde ongeveer 20 jaar om de gemeenschap ervan te overtuigen dat dat een goed idee was.”
Waarom duurde het zo lang? Het ontwerpen van feature-extractors kan best goed werken als er weinig data of rekenkracht beschikbaar is; er is ook de voldoening om je verstand direct tegen het probleem te stellen, in plaats van jezelf te degraderen tot het verzamelen en opschonen van gegevens, en de machine het 'slimme stukje' te laten doen. Ik kan het weten – ik was een van die mensen die zorgvuldig met de hand functies voor machine vision-systemen maakte. Mezelf degraderen naar een soort 'machinecoach' was op dat moment nederig, maar achteraf gezien is het een zeer solide beslissing.
Een andere manier van denken over de langetermijntrends in AI is dat we ons begonnen te concentreren op taken die verband houden met zeer intelligente mensen (symbolisch redeneren, bewijzen van stellingen, enzovoort), en dat deze methoden faalden, niet omdat ze niet werkten , maar dat ze alleen succesvol bleken binnen de abstracte wereld waarin ze werden verwekt. Intelligentie die we in de wereld kunnen gebruiken, moet tot op zekere hoogte van de wereld zijn, gevormd door empirisch bewijs (gegevens!), niet alleen volledig gevormd uit een slim gekozen reeks axioma's. Zoals ik eerder heb geschreven, hebben de meest interessante openstaande problemen in AI meer te maken met het matchen van het “gezond verstand” en het leervermogen van een peuter dan met het maken van synthetische versies van schaakgrootmeesters.
2012: AI's Grote doorbraak
Eind 2009 werd het gebruik van deep feedforward, niet-terugkerende netwerken voor spraakherkenning geïntroduceerd door Geoffrey Hinton (tegen die tijd aan de Universiteit van Toronto) en Li Deng, voormalig Chief Scientist van AI bij Microsoft. In oktober 2012 stonden neurale netwerken opnieuw in de academische schijnwerpers dankzij indrukwekkende benchmarks van AlexNet en andere inzendingen voor de PASCAL Visual Object Classes Challenge en de ImageNet Large Scale Visual Recognition Challenge op de European Conference on Computer Vision. Datzelfde jaar programmeerden Google Fellow Jeff Dean en voormalig Intel op AI-gast Andrew Ng een computercluster om zichzelf te trainen om automatisch afbeeldingen te herkennen. Tegen de herfst citeerde de New York Times de Mandarijn-vertaalpresentatie van Dr. Richard F. Rashid met Microsoft als bewijs van het potentieel van deep learning, en citeerde hij zijn verklaring dat dergelijk werk “de meest dramatische verandering in nauwkeurigheid sinds 1979” markeerde.
Yann merkt op dat de ontwikkeling van neurale netwerken die worden omarmd al enkele jaren teruggaat dankzij het werk van verschillende pioniers, waaronder het werk van mede Turing Award-winnaar Yoshua Bengio's tekstvoorspellingswerk in de vroege jaren 2000, zoals “A Neural Probabilistic Language Model” en het werk van Pascal Vicent met denoising autoencoders, samen met het werk van Ronan Collobert en Jason Weston bij het NEC Research Institute in Princeton, zoals hun paper uit 2011 “Natural Language Processing (Almost) from Scratch.”
2013-2017 : Een lawine van vooruitgang
Na het cruciale jaar 2012 begon de vooruitgang in AI te sneeuwballen. In 2013 creëerden Tomas Mikolov en zijn collega's bij Google Word2vec, een slimme techniek om een functierepresentatie van woorden te leren waarvoor geen gelabelde gegevens nodig zijn en waarmee NLP-systemen voorbij spelling kunnen kijken en zich kunnen concentreren op semantiek. Dit maakte het ook relatief eenvoudig om meertalige systemen te trainen die het niet uitmaakt of gebruikers “hond” schrijven als “perro”, “chien” of “hund”, vooral handig voor het geven van sprekers van “low-resource”-talen (voor praktische doeleinden , alles wat niet Engels is) toegang tot hoeveelheden informatie die wij Engelstaligen als vanzelfsprekend beschouwen.
In 2014 publiceerde Ilya Sutskever “Sequence to Sequence Learning with Neural Networks”, waarin een methode wordt beschreven voor het gebruik van een meerlagig Long Short-Term Memory (LSTM)-systeem dat geschikt is voor taken zoals geautomatiseerde vertaling en samenvatting, en in 2015 publiceerde Dzmitry Bahdanau “Neural Machinevertaling door gezamenlijk te leren uitlijnen en vertalen.” Binnen slechts een paar maanden hebben Google, Facebook, Microsoft, et al. had vertaalsystemen gebaseerd op terugkerende neurale netwerken. In 2017 stelden onderzoekers van Google een nieuwe, eenvoudige netwerkarchitectuur voor die uitsluitend gebaseerd was op aandachtsmechanismen in hun paper 'Attention Is All You Need'. (Jokey-titels zijn een rage in AI-onderzoek, met veel recente artikelen die spelen met de namen van Sesamstraat-personages.)
Na decennia waarin begaafde onderzoekers zeer uiteenlopende benaderingen hebben verkend, vaak gericht op zeer smalle toepassingsgebieden of op volledig abstracte problemen, hebben we een punt bereikt waarop moderne, datagestuurde benaderingen hun waarde laten zien in allerlei praktische domeinen. We hebben nog steeds de AI-theoretici nodig, maar het gebruik van gegevens uit de echte wereld – in al zijn rommelige complexiteit en met al zijn gebreken – is het belangrijkste ingrediënt geweest bij het verkrijgen van resultaten die we kunnen toepassen op echte problemen.
2020 en Verder: open onderzoek
Tegenwoordig worden neurale netwerken nog steeds verfijnd en op nieuwe en opwindende manieren gebruikt. Yann neemt nota van het werk van Guillaume Lample en François Charton, mede-Facebook-collega's, en hun recente paper die laat zien hoe de systemen verrassend goed zijn in wiskunde – niet zozeer opwindend omdat de gebruikers van Facebook schreeuwen om nieuwe stellingbewijzers, maar omdat problemen als deze van oudsher wordt gezien als een bijzonder zwak punt voor neurale netwerken.
Zoals ik schreef in de blog over hoe Facebook AI gebruikt, zoals beschreven door Jerome Pesenti, is een van de belangrijkste verbeteringen in AI niet het onderzoek zelf, maar de manier waarop het onderzoek wordt uitgevoerd: in plaats van dat het intern als handelsgeheimen wordt bewaard, het is volkomen normaal dat industriële onderzoekslaboratoria documenten publiceren die vergezeld gaan van de code (en vaak de gegevens) die nodig zijn om de resultaten te reproduceren. Ik hou van dit aspect van het AI-veld; Ik weet zeker dat het een enorm 'publiek goed' creëert, maar mijn machine learning-vrienden en ik vragen ons al jaren af waarom bedrijven zoveel waardevolle dingen weggeven. In deze podcast geeft Yann ons een heel eenvoudige uitleg, althans in het geval van de Facebook AI Research (FAIR)-afdeling: om de voortgang van AI als geheel te versnellen tot het punt waarop, “je zult zien dat Google een techniek publiceert , en dan heeft Facebook binnen drie maanden een verbetering. En binnen drie maanden daarna heeft Google weer een verbetering.” Deze nieuwe culturele norm – dat een paper code en gegevens moet bevatten in de naam van 'reproduceerbaar onderzoek', en het verspreidt zich over de wetenschap.
Net als anderen op het gebied van AI, zoals roboticus Pieter Abbeel, is Yann enthousiast over de toekomst van zelfgestuurd leren (FAIR heeft net na de podcast nog een ander artikel uitgebracht, met resultaten die sterker, eenvoudiger en veel minder rekenkundig veeleisend waren dan verwante werk slechts een paar maanden oud) en, net als Ed Hsu van de Wereldbank, over het vermogen van AI om de gezondheidszorg te transformeren en de wereld te verbeteren. Zoals gewoonlijk is mijn blog maar een bleke schaduw van de originele podcast: Abigail heeft een heel fascinerend interview geproduceerd, en je moet echt naar de volledige aflevering luisteren.
Geïnteresseerd om van Yann zelf te leren? Zijn NYU-cursus met Alfredo Canziani over deep learning is (uiteraard) gratis beschikbaar op GitHub!
Intel doet natuurlijk ook veel open source AI-onderzoek, waarvan je voorbeelden kunt vinden op : https://www.intel.com/content/www/us/en/artificial-intelligence/research-projects.html
Om naar meer Intel op AI-podcastafleveringen te luisteren, inclusief een komende aflevering met gasten van Intel Labs die hun baanbrekende AI-werk bespreken, bezoeken: intel.com/aipodcast
Edward Dixon
Data Scientist, Intel