Het verklaren van het gedrag van getrainde neurale netwerken blijft een boeiende puzzel, vooral omdat deze modellen steeds groter en verfijnder worden. Net als andere wetenschappelijke uitdagingen door de geschiedenis heen, vereist het reverse-engineeren van de manier waarop kunstmatige-intelligentiesystemen werken een aanzienlijke hoeveelheid experimenten: het maken van hypothesen, het ingrijpen in gedrag en zelfs het ontleden van grote netwerken om individuele neuronen te onderzoeken. Tot nu toe hebben de meeste succesvolle experimenten grote hoeveelheden menselijk toezicht met zich meegebracht. Het uitleggen van elke berekening binnen modellen ter grootte van GPT-4 en groter zal vrijwel zeker meer automatisering vergen – misschien zelfs het gebruik van AI-modellen zelf.
Om deze tijdige onderneming mogelijk te maken, hebben onderzoekers van het Computer Science and Artificial Intelligence Laboratory (CSAIL) van MIT een nieuwe aanpak ontwikkeld die AI-modellen gebruikt om experimenten op andere systemen uit te voeren en hun gedrag te verklaren. Hun methode maakt gebruik van agenten die zijn opgebouwd uit vooraf getrainde taalmodellen om intuïtieve uitleg te geven van berekeningen binnen getrainde netwerken.
Centraal in deze strategie staat de “automated interpretability agent” (AIA), ontworpen om de experimentele processen van een wetenschapper na te bootsen. Interpreteerbaarheidsagenten plannen en voeren tests uit op andere computersystemen, die in schaal kunnen variëren van individuele neuronen tot hele modellen, om verklaringen voor deze systemen in verschillende vormen te produceren: taalbeschrijvingen van wat een systeem doet en waar het faalt, en code die het gedrag van het systeem reproduceert. In tegenstelling tot bestaande interpreteerbaarheidsprocedures die voorbeelden passief classificeren of samenvatten, neemt de AIA actief deel aan hypothesevorming, experimenteel testen en iteratief leren, waardoor het begrip van andere systemen in realtime wordt verfijnd.
Als aanvulling op de AIA-methode is er de nieuwe “functie-interpretatie en beschrijving” (VINDEN) benchmark, een testbed van functies die lijken op berekeningen binnen getrainde netwerken, en bijbehorende beschrijvingen van hun gedrag. Een belangrijke uitdaging bij het evalueren van de kwaliteit van beschrijvingen van netwerkcomponenten uit de echte wereld is dat beschrijvingen slechts zo goed zijn als hun verklarende kracht: onderzoekers hebben geen toegang tot de grondwaarheid labels van eenheden of beschrijvingen van geleerde berekeningen. FIND pakt dit al lang bestaande probleem in het veld aan door een betrouwbare standaard te bieden voor het evalueren van interpreteerbaarheidsprocedures: verklaringen van functies (bijvoorbeeld geproduceerd door een AIA) kunnen worden geëvalueerd aan de hand van functiebeschrijvingen in de benchmark.
FIND bevat bijvoorbeeld synthetische neuronen die zijn ontworpen om het gedrag van echte neuronen in taalmodellen na te bootsen, waarvan sommige selectief zijn voor individuele concepten zoals ‘grondtransport’. AIA’s krijgen black-box-toegang tot synthetische neuronen en ontwerpen inputs (zoals ‘boom’, ‘geluk’ en ‘auto’) om de reactie van een neuron te testen. Nadat hij heeft opgemerkt dat een synthetisch neuron hogere responswaarden produceert voor ‘auto’ dan andere inputs, zou een AIA fijnmaziger tests kunnen ontwerpen om de selectiviteit van het neuron voor auto’s te onderscheiden van andere vormen van transport, zoals vliegtuigen en boten. Wanneer de AIA een beschrijving produceert zoals ‘dit neuron is selectief voor wegtransport, en niet voor lucht- of zeereizen’, wordt deze beschrijving geëvalueerd aan de hand van de waarheidsgetrouwe beschrijving van het synthetische neuron (‘selectief voor grondtransport’) in FIND. De benchmark kan vervolgens worden gebruikt om de mogelijkheden van AIA’s te vergelijken met andere methoden in de literatuur.
Sarah Schwettmann PhD ’21, co-hoofdauteur van a papier over het nieuwe werk en een onderzoekswetenschapper bij CSAIL, benadrukt de voordelen van deze aanpak. “Het vermogen van de AIA’s voor het autonoom genereren en testen van hypothesen kan mogelijk gedrag aan het licht brengen dat anders voor wetenschappers moeilijk te detecteren zou zijn. Het is opmerkelijk dat taalmodellen, wanneer ze zijn uitgerust met hulpmiddelen voor het onderzoeken van andere systemen, in staat zijn tot dit soort experimenteel ontwerp”, zegt Schwettmann. “Schone, eenvoudige benchmarks met antwoorden op de grond van de waarheid zijn een belangrijke motor geweest voor meer algemene mogelijkheden in taalmodellen, en we hopen dat FIND een vergelijkbare rol kan spelen in onderzoek naar interpreteerbaarheid.”
Automatisering van de interpreteerbaarheid
Grote taalmodellen behouden nog steeds hun status als de meest gevraagde beroemdheden van de technische wereld. De recente ontwikkelingen op het gebied van LLM’s hebben hun vermogen benadrukt om complexe redeneertaken uit te voeren in verschillende domeinen. Het team van CSAIL onderkende dat taalmodellen, gezien deze mogelijkheden, kunnen dienen als ruggengraat van gegeneraliseerde middelen voor geautomatiseerde interpreteerbaarheid. “Interpreteerbaarheid is van oudsher een zeer veelzijdig vakgebied”, zegt Schwettmann. “Er is geen one-size-fits-all aanpak; de meeste procedures zijn zeer specifiek voor individuele vragen die we kunnen hebben over een systeem, en voor individuele modaliteiten zoals visie of taal. Bestaande benaderingen voor het labelen van individuele neuronen in zichtmodellen vereisen het trainen van gespecialiseerde modellen op basis van menselijke gegevens, waarbij deze modellen alleen deze ene taak uitvoeren. Interpreteerbaarheidsmiddelen opgebouwd uit taalmodellen zouden een algemene interface kunnen bieden voor het verklaren van andere systemen – door resultaten uit experimenten te synthetiseren, te integreren over verschillende modaliteiten, en zelfs nieuwe experimentele technieken op een zeer fundamenteel niveau te ontdekken.”
Nu we een regime binnentreden waarin de modellen die de verklaringen afleggen zelf zwarte dozen zijn, worden externe evaluaties van interpreteerbaarheidsmethoden steeds belangrijker. De nieuwe benchmark van het team komt tegemoet aan deze behoefte met een reeks functies met een bekende structuur, die zijn gemodelleerd naar gedrag dat in het wild is waargenomen. De functies binnen FIND bestrijken een diversiteit aan domeinen, van wiskundig redeneren tot symbolische bewerkingen op strings tot synthetische neuronen die zijn opgebouwd uit taken op woordniveau. De dataset van interactieve functies is procedureel opgebouwd; Real-world complexiteit wordt geïntroduceerd in eenvoudige functies door ruis toe te voegen, functies samen te stellen en vooroordelen te simuleren. Dit maakt vergelijking van interpretatiemethoden mogelijk in een omgeving die zich vertaalt naar prestaties in de echte wereld.
Naast de dataset van functies introduceerden de onderzoekers een innovatief evaluatieprotocol om de effectiviteit van AIA’s en bestaande geautomatiseerde interpreteerbaarheidsmethoden te beoordelen. Dit protocol omvat twee benaderingen. Voor taken waarbij de functie in code moet worden gerepliceerd, vergelijkt de evaluatie rechtstreeks de door AI gegenereerde schattingen met de originele, op de grond gebaseerde functies. De evaluatie wordt ingewikkelder voor taken waarbij functies in natuurlijke taal worden beschreven. In deze gevallen vereist het nauwkeurig meten van de kwaliteit van deze beschrijvingen een geautomatiseerd begrip van hun semantische inhoud. Om deze uitdaging aan te pakken, ontwikkelden de onderzoekers een gespecialiseerd taalmodel van derden. Dit model is specifiek getraind om de nauwkeurigheid en samenhang van de natuurlijke taalbeschrijvingen van de AI-systemen te evalueren, en vergelijkt dit met het gedrag van de grond-waarheidsfunctie.
FIND maakt evaluatie mogelijk, waaruit blijkt dat we de interpreteerbaarheid nog lang niet volledig hebben geautomatiseerd; Hoewel AIA’s beter presteren dan de bestaande interpreteerbaarheidsbenaderingen, slagen ze er nog steeds niet in om bijna de helft van de functies in de benchmark nauwkeurig te beschrijven. Tamar Rott Shaham, mede-hoofdauteur van het onderzoek en postdoc bij CSAIL, merkt op dat “hoewel deze generatie AIA’s effectief is in het beschrijven van functionaliteit op hoog niveau, ze nog steeds vaak fijnere details over het hoofd zien, vooral in functiesubdomeinen met ruis of onregelmatig gedrag. Dit komt waarschijnlijk voort uit onvoldoende bemonstering in deze gebieden. Eén probleem is dat de effectiviteit van de AIA’s kan worden belemmerd door hun eerste verkennende gegevens. Om dit tegen te gaan, probeerden we de verkenning van de AIA’s te begeleiden door hun zoektocht te initialiseren met specifieke, relevante input, wat de nauwkeurigheid van de interpretatie aanzienlijk verbeterde.” Deze aanpak combineert nieuwe AIA-methoden met eerdere technieken, waarbij gebruik wordt gemaakt van vooraf berekende voorbeelden om het interpretatieproces te initiëren.
De onderzoekers ontwikkelen ook een toolkit om het vermogen van de AIA’s om nauwkeurigere experimenten op neurale netwerken uit te voeren te vergroten, zowel in black-box- als white-box-omgevingen. Deze toolkit heeft tot doel AIA’s uit te rusten met betere tools voor het selecteren van inputs en het verfijnen van de mogelijkheden voor het testen van hypothesen voor een meer genuanceerde en nauwkeurige neurale netwerkanalyse. Het team pakt ook praktische uitdagingen aan op het gebied van de interpreteerbaarheid van AI, waarbij de nadruk ligt op het bepalen van de juiste vragen die moeten worden gesteld bij het analyseren van modellen in scenario’s uit de echte wereld. Hun doel is om geautomatiseerde interpreteerbaarheidsprocedures te ontwikkelen die mensen uiteindelijk kunnen helpen systemen te auditen – bijvoorbeeld voor autonoom rijden of gezichtsherkenning – om potentiële faalwijzen, verborgen vooroordelen of verrassend gedrag te diagnosticeren voordat ze worden ingezet.
Kijken naar de toeschouwers
Het team heeft zich voorgenomen om op een dag vrijwel autonome AIA’s te ontwikkelen die andere systemen kunnen auditen, waarbij menselijke wetenschappers toezicht en begeleiding zullen bieden. Geavanceerde AIA’s zouden nieuwe soorten experimenten en vragen kunnen ontwikkelen, die mogelijk verder gaan dan de initiële overwegingen van menselijke wetenschappers. De focus ligt op het uitbreiden van de interpreteerbaarheid van AI naar complexer gedrag, zoals hele neurale circuits of subnetwerken, en het voorspellen van inputs die tot ongewenst gedrag kunnen leiden. Deze ontwikkeling betekent een belangrijke stap voorwaarts in het AI-onderzoek, met als doel AI-systemen begrijpelijker en betrouwbaarder te maken.
“Een goede benchmark is een krachtig hulpmiddel om moeilijke uitdagingen aan te pakken”, zegt Martin Wattenberg, hoogleraar computerwetenschappen aan de Harvard University, die niet bij het onderzoek betrokken was. “Het is geweldig om deze geavanceerde maatstaf voor interpreteerbaarheid te zien, een van de belangrijkste uitdagingen op het gebied van machine learning vandaag de dag. Ik ben vooral onder de indruk van de geautomatiseerde interpreteerbaarheidsagent die de auteurs hebben gemaakt. Het is een soort interpreteerbare jiu-jitsu, waarbij AI op zichzelf wordt teruggedraaid om het menselijk begrip te bevorderen.”
Schwettmann, Rott Shaham en hun collega’s presenteerden hun werk op NeurIPS 2023 in december. Andere MIT-coauteurs, alle aangesloten bij de CSAIL en de afdeling Elektrotechniek en Computerwetenschappen (EECS), zijn onder meer afgestudeerde student Joanna Materzynska, student Neil Chowdhury, Shuang Li PhD ’23, assistent-professor Jacob Andreas en professor Antonio Torralba. Northeastern University assistent-professor David Bau is een aanvullende co-auteur.
Het werk werd gedeeltelijk ondersteund door het MIT-IBM Watson AI Lab, Open Philanthropy, een Amazon Research Award, Hyundai NGV, het US Army Research Laboratory, de US National Science Foundation, het Zuckerman STEM Leadership Program en een Viterbi Fellowship. .