Natuurlijke taal brengt ideeën, acties, informatie en bedoelingen over via context en syntaxis; verder zijn er volumes ervan opgenomen in databases. Dit maakt het een uitstekende gegevensbron om machine learning-systemen op te trainen. Twee masterstudenten in het 6A MEng Thesis Program aan het MIT, Irene Terpstra ’23 en Rujul Gandhi ’22, werken samen met mentoren in het MIT-IBM Watson AI Lab om deze kracht van natuurlijke taal te gebruiken om AI-systemen te bouwen.
Nu computers steeds geavanceerder worden, willen onderzoekers de hardware waarop ze draaien verbeteren; dit betekent innoveren om nieuwe computerchips te creëren. En aangezien er al literatuur beschikbaar is over wijzigingen die kunnen worden aangebracht om bepaalde parameters en prestaties te bereiken, hebben Terpstra en haar mentoren en adviseurs Anantha Chandrakasan, decaan van de MIT School of Engineering en de Vannevar Bush hoogleraar Electrical Engineering and Computer Science, en IBM’s onderzoeker Xin Zhang, ontwikkelen een AI-algoritme dat helpt bij het ontwerpen van chips.
“Ik creëer een workflow om systematisch te analyseren hoe deze taalmodellen het circuitontwerpproces kunnen helpen. Welk redeneervermogen hebben ze, en hoe kan dit worden geïntegreerd in het chipontwerpproces?” zegt Terpstra. “En aan de andere kant, als dat nuttig genoeg blijkt te zijn, zullen we kijken of ze de chips automatisch zelf kunnen ontwerpen en deze kunnen koppelen aan een versterkend leeralgoritme.”
Om dit te doen, creëert het team van Terpstra een AI-systeem dat verschillende ontwerpen kan herhalen. Het betekent experimenteren met verschillende vooraf getrainde grote taalmodellen (zoals ChatGPT, Llama 2 en Bard), met behulp van een open-source circuitsimulatortaal genaamd NGspice, die de parameters van de chip in codevorm heeft, en een versterkend leeralgoritme. Met tekstprompts kunnen onderzoekers zich afvragen hoe de fysieke chip moet worden aangepast om een bepaald doel in het taalmodel te bereiken en richtlijnen voor aanpassingen produceren. Dit wordt vervolgens overgebracht naar een versterkend leeralgoritme dat het circuitontwerp bijwerkt en nieuwe fysieke parameters van de chip uitvoert.
“Het uiteindelijke doel zou zijn om de redeneerkracht en de kennisbasis die in deze grote taalmodellen is ingebakken te combineren en dat te combineren met de optimalisatiekracht van de versterkende leeralgoritmen en die de chip zelf te laten ontwerpen”, zegt Terpstra.
Rujul Gandhi werkt met de rauwe taal zelf. Als student aan het MIT onderzocht Gandhi taalkunde en computerwetenschappen en bracht ze samen in haar MEng-werk. “Ik ben geïnteresseerd in communicatie, zowel tussen mensen onderling als tussen mensen en computers”, zegt Gandhi.
Robots en andere interactieve AI-systemen zijn een gebied waar communicatie door zowel mensen als machines moet worden begrepen. Onderzoekers schrijven vaak instructies voor robots met behulp van formele logica. Dit helpt ervoor te zorgen dat opdrachten veilig en zoals bedoeld worden gevolgd, maar formele logica kan voor gebruikers moeilijk te begrijpen zijn, terwijl natuurlijke taal gemakkelijk gaat. Om deze soepele communicatie te garanderen, bouwen Gandhi en haar adviseurs Yang Zhang van IBM en MIT assistent-professor Chuchu Fan een parser die instructies in natuurlijke taal omzet in een machinevriendelijke vorm. Door gebruik te maken van de taalstructuur gecodeerd door het vooraf getrainde encoder-decodermodel T5, en een dataset van geannoteerde, Engelse basisopdrachten voor het uitvoeren van bepaalde taken, identificeert Gandhi’s systeem de kleinste logische eenheden, of atomaire proposities, die aanwezig zijn in een bepaalde instructie.
“Zodra je de opdracht hebt gegeven, identificeert het model alle kleinere deeltaken die je wilt laten uitvoeren”, zegt Gandhi. “Vervolgens kan elke subtaak met behulp van een groot taalmodel worden vergeleken met de beschikbare acties en objecten in de wereld van de robot. Als een subtaak niet kan worden uitgevoerd omdat een bepaald object niet wordt herkend, of een actie Als dat niet mogelijk is, kan het systeem daar stoppen en de gebruiker om hulp vragen.”
Deze aanpak waarbij instructies in subtaken worden opgedeeld, stelt haar systeem ook in staat logische afhankelijkheden te begrijpen die in het Engels zijn uitgedrukt, zoals: “voer taak X uit totdat gebeurtenis Y plaatsvindt.” Gandhi gebruikt een dataset met stapsgewijze instructies voor robottaakdomeinen zoals navigatie en manipulatie, met de nadruk op huishoudelijke taken. Het gebruik van gegevens die precies zijn geschreven zoals mensen met elkaar zouden praten, heeft veel voordelen, zegt ze, omdat het betekent dat een gebruiker flexibeler kan zijn in de manier waarop hij zijn instructies formuleert.
Een ander project van Gandhi betreft het ontwikkelen van spraakmodellen. In de context van spraakherkenning worden sommige talen als ‘weinig hulpbronnen’ beschouwd, omdat er mogelijk niet veel getranscribeerde spraak beschikbaar is, of helemaal geen geschreven vorm bestaat. “Een van de redenen dat ik solliciteerde op deze stage bij het MIT-IBM Watson AI Lab was mijn interesse in taalverwerking voor talen met weinig hulpmiddelen”, zegt ze. “Veel taalmodellen zijn tegenwoordig erg datagedreven, en als het niet zo eenvoudig is om al die data te verzamelen, dan moet je de beperkte data efficiënt gebruiken.”
Spraak is slechts een stroom geluidsgolven, maar mensen die een gesprek voeren, kunnen er gemakkelijk achter komen waar woorden en gedachten beginnen en eindigen. Bij spraakverwerking gebruiken zowel mensen als taalmodellen hun bestaande vocabulaire om woordgrenzen te herkennen en de betekenis te begrijpen. In talen met weinig of geen hulpbronnen bestaat het mogelijk dat er helemaal geen geschreven woordenschat bestaat, dus onderzoekers kunnen er geen aan het model toevoegen. In plaats daarvan kan het model noteren welke geluidsreeksen vaker samen voorkomen dan andere, en hieruit afleiden dat dit individuele woorden of concepten kunnen zijn. In Gandhi’s onderzoeksgroep worden deze afgeleide woorden vervolgens verzameld in een pseudo-woordenschat die dient als labelmethode voor de taal met weinig hulpbronnen, waardoor gelabelde gegevens ontstaan voor verdere toepassingen.
De toepassingen voor taaltechnologie zijn ‘vrijwel overal’, zegt Gandhi. “Je kunt je voorstellen dat mensen in hun moedertaal, hun moederdialect, met software en apparaten kunnen communiceren. Je kunt je voorstellen dat je alle stemassistenten die we gebruiken, zou verbeteren. Je kunt je voorstellen dat het wordt gebruikt voor vertaling of tolken.”