Havet är fyllt av tal och språk – vi behöver bara de rätta verktygen för att tyda dem.
Monterey Bay, det globala meckat för valskådning, ligger en kort bilresa från informationsålderns epicentrum, San Francisco och Silicon Valley. Under sommaren 2018, tre år efter min första ödesdigra resa dit, arbetade jag på samma gata som Britt Selvitelle och Aza Raskin. De körde ner till vårt hus där jag och mitt team bodde under en filminspelning. Jag hade också bjudit in dr John Ryan, en tystlåten forskare i femtioårsåldern från Monterey Bay Aquarium Research Institute med en förkärlek för skateboardåkning och berg- och dalbanor.
John var redan övertygad om att AI kan hjälpa till att utforska valsång. Monterey Bay är kall, en födoplats. Man trodde att de flesta knölvalssångerna skedde långt borta, i deras tropiska avelsområden. Men John hade en djuphavslyssningsstation ansluten till sitt kontor och han bestämde sig för att söka igenom inspelningarna. Det tog hundratals timmar. Till sin förvåning upptäckte han sånger från hundratals djur.
John och hans kollegor hade sedan tränat AI, som tog sig an sex års inspelningar och lade till blå- och sillvalar till sina lyssnarkunskaper. De upptäckte knölvalar som sjöng i Monterey under nio månader av året. De lärde sig att de kalla vattnen ibland ljöd av valsång i över tjugo timmar om dagen. Johns inspelningar omfattade den tid som den huvudmisstänkte hade varit i Monterey. Han sa att han var säker på att vår vals sång hade fångats någonstans på hans band. Sittandes bland våra staplade flytvästar, kameragyroskop, laddande batterier och surrande hårddiskar, åt vi fajitas och lyssnade uppmärksamt medan Aza och Britt förklarade den plan de hade kläckt. De skulle ta den otroliga analyskraften hos tekniken bakom Google Översätt och använda den för att avkoda djurkommunikation.
För att förstå vad fan det här betydde var Britt och Aza tvungna att ge John och mig en lektion i hur AI hade revolutionerat översättning. Människor har använt datorer för att översätta och analysera språk i flera decennier. Det kallas naturlig språkbehandling. Fram till nyligen var man dock tvungen att mödosamt lära maskinen att omvandla ett mänskligt språk till ett annat. Datorprogrammen fick beslutsträd att arbeta sig igenom när de stod inför en text på ett språk, och de var tvungna att få instruktioner om vad de skulle göra i varje situation; de behövde tvåspråkiga ordböcker och grammatiska regler och så vidare. Att skriva dessa program var tidskrävande och resultaten var fasta. Situationer som programmerarna inte hade räknat med uppstod och kraschade programmet, exempelvis datorernas oförmåga att hantera felstavningar.
Sedan kom två utvecklingar: den första var uppkomsten av nya AI-verktyg, som artificiella neurala nätverk – samma datorprogram som bygger på strukturer i den mänskliga hjärnan och som Julie använde för att upptäcka delfinernas unika visslingar. Särskilt kraftfulla i detta avseende var de neurala nätverken i flera lager som kallas djupa neurala nätverk (deep neural networks, DNNs). Den andra utvecklingen var att internet hade gjort enorma mängder översatta textdata fritt tillgängliga – Wikipedia, filmundertexter, protokoll från EU:s och FN:s möten, miljontals dokument som noggrant översatts till många språk.
Dessa texter var perfekt näring för DNNs. Ingenjörer kunde ge algoritmerna båda halvorna av översättningen och be DNN att översätta mellan dem, men utan att använda några befintliga språkregler. Istället kunde DNNs skapa sina egna. De kunde prova många olika sätt att se hur man kan ta sig från ett språk till en korrekt översättning i ett annat, och de kunde leka med sannolikheter, om och om igen. De kunde lära sig mönster för hur man översätter korrekt. När det fungerade kom DNN ihåg det och testade om det skulle fungera i ett annat sammanhang. Maskinerna lärde sig på ungefär samma sätt som Jinmo Parks algoritm för datorseende lärde sig att matcha valens stjärtfenor för Happywhale. Jinmo behövde inte lära sitt program vad en val var eller hur människor matchar en stjärtfena med en annan. Han behövde helt enkelt massor av namngivna exempel och tillräckligt med ytterligare icke-namngivna data som algoritmerna kunde köra igenom om och om igen tills de hittade ett sätt att få mönstren att stämma överens.
Även om de första översättningsmaskinerna som använde DNNs var hyggliga, var de fortfarande inte i närheten av mänsklig kompetens. Det mest avgörande var att vi fortfarande behövde övervaka dem: vi var tvungna att ge dem exempel på översättningar som de kunde arbeta med. Sedan kom en mycket ovanlig utveckling. 2013 visade Tomas Mikolov, datavetare på Google, och hans kollegor hur man, om man matade in en massa texter i en annan typ av neuralt nätverk, kunde be det leta efter mönster i relationerna mellan orden i ett språk. Liknande eller associerade ord skulle placeras nära varandra, medan olikartade och mindre associerade ord längre bort. Aza citerade lingvisten J. R. Firth: Du ska känna igen ett ord på det sällskap det håller!
Han förklarade till exempel att is ofta förekommer i anslutning till kyla, men sällan i anslutning till stol. Detta ger datorn en antydan om att is och kyla är semantiskt relaterade på ett sätt som is och stol inte är. Genom att använda det skrivna språket för att hitta dessa associationsmönster kunde det neurala nätverket bädda in varje ord i en karta över sambanden mellan alla ord i ett språk. Jag föreställde mig detta som ett slags stjärndiagram där varje stjärna var ett ord och varje konstellation inom språkets galax representerade hur orden användes i förhållande till varandra. Det är faktiskt omöjligt att visualisera dessa galaxer, eftersom antalet ord och deras otaliga geometriska förhållanden innebär att de har hundratals dimensioner. Men här är Britt och Azas exempel på de tio tusen mest talade orden på engelska komprimerade till en 3d-bild.
Vad Mikolov och hans kollegor sedan upptäckte var häpnadsväckande: man kunde göra algebra på språk! Britt och Aza bröt ner det: om du bad programmet att ta kung och ta bort man och lägga till kvinna, det närmaste ordet i molnet, blev svaret drottning. Det hade inte lärt sig vad kung eller drottning var, men det visste att en kvinnlig kung var en drottning. Även om man inte visste vad ett språk betydde kunde man göra en karta över det och sedan utforska det matematiskt.
Jag var förbluffad. Jag hade alltid betraktat ord och språk som känslomässiga, luddiga och föränderliga saker – och ändå fanns här en engelsk projektion, automatiskt sammanställd av en maskin med hjälp av miljarder exempel, till mönster av förhållandet mellan ord som vi tanklöst bär med oss i våra egna huvuden, en skörd av våra egna neurala nätverk från de stora datamängderna i våra egna liv: böcker, samtal, filmer och annan information som våra hjärnor har matats med och som vi omedvetet har gömt undan.
Hans upptäckt var användbar för att hitta relationer inom ett språk, men vad hade den med översättning att göra? Det här är den riktigt fina delen. 2017 kom en avgörande insikt som övertygade Britt och Aza om att dessa tekniker kunde hjälpa till med djurkommunikation. En ung forskare vid namn Mikel Artetxe vid universitetet i Baskien upptäckte att han kunde be en AI att vända på ordgalaxerna i olika språk och lägga dem över varandra. Och så småningom, som om de manipulerade ett absurt komplext Tetrisspel, skulle deras former stämma överens, ordkonstellationerna skulle passa ihop, och om man tittade på samma ställe i den tyska ordgalaxen där kung befinner sig i den engelska, skulle man hitta könig.
Det krävdes inga översättningsexempel eller andra kunskaper om något av språken för att detta skulle fungera. Detta var en automatisk översättning utan ordbok eller mänsklig input. Som Britt och Aza uttryckte det, tänk dig att du får två helt okända språk och att du bara genom att analysera vart och ett av dem tillräckligt länge kan upptäcka hur du översätter mellan dem. Det var en omvandling av naturlig språkbehandling.
Sedan kom andra nya verktyg också. Oövervakade inlärningstekniker som fungerade på ljud, i inspelningar av obearbetat mänskligt tal, identifierade automatiskt vilka ljud som var meningsfulla enheter – ord. Andra verktyg kunde titta på ordenheter och utifrån deras relationer dra slutsatser om hur de konstruerades till fraser och meningar – syntax. Det var datorprogram som inspirerades av våra hjärnors kretslopp och som hittade och länkade mönster i våra språk, vilket är hur moderna översättningsmaskiner som Google Översätt fungerar idag. Och de fungerar otroligt bra och kan översätta meningar från engelska till mandarin eller urdu, omedelbart och med rimlig noggrannhet. Men hur skulle de kunna upptäcka mönster i andra djurs kommunikation?
I årtionden har vi människor försökt avkoda djurens kommunikationssystem genom att leta efter en rosettasten – någon slags nyckel för att låsa upp dem, en väg in i det okända. Genom att arbeta med de minsta enheterna, de enklaste eller mest uppenbara vokaliseringarna – som larm och signaturvisslingar – försökte vi identifiera en signal som kan vara meningsfull för ett djur och försökte sedan koppla den till ett beteende för att avkoda den. Det fanns inget annat sätt, för vi hade ingen aning om vad de andra ljuden som djuren gjorde betydde – eller om de hade någon betydelse alls. Ändå fanns här ett nytt datorverktyg, oövervakad maskinöversättning, som blomstrade trots att den inte fick instruktioner om vad något av de mänskliga språken som den skulle översätta betydde. Britt och Aza behövde ingen automatisk översättningsmaskin för att tolka mitt ansiktsuttryck när de berättade det här för mig: herre jösses. Skulle detta fungera med djur? Jag frågade dem. Skulle man kunna undersöka djurs språk genom att kartlägga alla vokaliseringar som en art gör i en galax och jämföra mönstren i dessa med mönstren hos andra arter? Ja, sa de. Det var det som var planen.
Mitt hjärna rusade iväg. Om jag hade förstått detta rätt skulle vi kunna kartlägga djurens kommunikationssystem på ett sätt som vi aldrig tidigare har kunnat göra. Vi skulle kunna börja utforska dem på djupet genom att jämföra dem med varandra. Vi skulle kunna se hur dessa kommunikationsgalaxer förändras och utvecklas med tiden. Vi skulle kunna gå från kommunikationssystem som har likheter till sådana som är mindre lika. Från att jämföra olika familjer av fiskätande späckhuggare till havsdäggdjursätande späckhuggare, till grindvalar, flasknosdelfiner, blåvalar, elefanter, afrikanska gråjakor, gibboner och människor. Om – och det är ett stort om – våra automatiska verktyg för analys av mänskligt språk fungerar för att hitta mönster i andra arters kommunikationssystem, kan de hjälpa oss att skapa ett sammanhang för alla djurs kommunikation. Det skulle kunna ge oss en uppfattning om mångfalden och antalet galaxer som finns i kommunikationsuniversumet och var vi människor befinner oss i det. Naturligtvis kan valars, delfiners och andra icke-människors vokaliseringar bara vara känslomässigt brus, utan mening, djup struktur eller syntax. I så fall skulle kanske inmatning av deras kommunikation i dessa algoritmer vara som att be en app för ansiktsigenkänning att skanna en pizza. Men efter allt jag hade lärt mig kändes detta osannolikt. Och även om valar har något som liknar naturligt språk kan dessa tekniker fortfarande misslyckas av andra skäl.
En teori som förklarar varför maskinöversättningar av mänskliga naturliga språk fungerar så bra är att alla våra språk i grund och botten innehåller samma information. Människor som bor i Mongoliet och Uganda lever liknande liv, i den meningen att de uppfattar liknande världar, fyllda med liknande objekt och aktörer, med liknande relationer, som alla är bundna av liknande fysik. Eftersom samma saker är möjliga i dessa avlägsna mänskliga världar har deras språk fått en liknande relationsstruktur, vilket gör att vi kan översätta swahili till mongoliska.
Valar och delfiner upplever helt andra världar än vi, och om de har en världsmodell som är fastslagen i språket, är det troligt att den också är väldigt annorlunda. Det kan mycket väl vara så att det inte finns några likheter mellan enheterna i knölvalsspråk och enheterna i engelska, men det skulle ändå vara upplysande att veta detta. Att upptäcka rika, komplexa strukturer och relationer inom icke-mänskliga kommunikationssystem som inte har någon likhet med dem i mänskligt språk skulle vara en uppenbarelse i sig själv, och antyda parallella djurvärldsåskådningar som vi skulle kunna utforska.