AI hjälper oss förstå cellens molekylära språk

Inom biologin är det en dröm att kartlägga cellens alla funktioner. Kombinationen av stora mängder data och snabba framsteg inom artificiell intelligens gör det möjligt att ta nästa steg. Nu samarbetar en grupp forskare med målet att förstå cellens molekylära språk.

Projektanslag 2022

Learning the molecular component of the cell

Huvudsökande:
Professor Arne Elofsson, Stockholms universitet

Medsökande:
KTH
Hossein Azizpour
Lukas Käll

Uppsala universitet
Michael Landreh

Lärosäte:
Stockholms universitet

Beviljat anslag:
30 miljoner kronor under fem år

Cellen är livets grundläggande byggsten. Den kan liknas vid en liten, komplex fabrik som innehåller och producerar tusentals molekylära komponenter. Proteinerna är ”fabrikens” verktyg eller arbetare. De svarar för en lång rad livsnödvändiga uppgifter, inklusive att bygga cellstrukturer eller utföra kemiska reaktioner.

På senare år har forskningen om proteiner avancerat. Man har lyckats bestämma strukturen på ett par hundra tusen enskilda proteiner och även många större molekylära komplex. Men det är inte tillräckligt för att fullt ut förstå cellens alla funktioner.

Proteinernas variationsrikedom är enorm. De tjugotusen gener som finns i människans arvsmassa ger upphov till ett oräkneligt antal proteinformer genom olika slags modifieringar. Proteinerna – som kan bestå av allt från några få till flera tusen aminosyror – veckar ihop sig till en komplex tredimensionell struktur.

Exakt hur många proteinformer som finns och vilka som är viktiga är fortfarande okänt. Nu vill forskare undersöka hela variationen av proteinformer som samtidigt kan finnas i en cell och dessutom ta reda på hur de pratar och samverkar med varandra – något som kan liknas vid att försöka förstå cellens molekylära språk.

Arne Elofsson är professor i bioinformatik vid Stockholms universitet och verksam vid SciLife Lab samt leder ett forskningsprojekt finansierat av Knut och Alice Wallenbergs Stiftelse.

– Inom projektet hoppas vi kartlägga de flesta protein-interaktioner som finns i en mänsklig cell. För att uppnå detta kommer vi att behöva utveckla nya metoder baserade på artificiell intelligens och dra nytta av ny information från storskaliga experiment.

En revolutionerande algoritm

Denna kartläggning skulle kunna pågå i åratal om det inte vore för den snabba utvecklingen inom AI. År 2020 presenterade det brittiska företaget DeepMind algoritmen AlphaFold som med hög precision kan förutsäga strukturen för enskilda proteiner, även när det saknas bra jämförelsematerial.

Sommaren 2021 blev programmet tillgängligt för forskarsamhället då källkoden släpptes fri, berättar Arne Elofsson.

– Jag minns att jag satt hemma på bryggan nere vid vattnet och i min telefon plötsligt såg hur Twitter fylldes av en massa inlägg från forskare som var lika exalterade som jag.

Redan under 2022 publicerades flera hundra vetenskapliga artiklar baserade på den nya tekniken.

– AlphaFold har helt revolutionerat vårt sätt att studera proteinstrukturer, säger Arne Elofsson.

AlphaFold bygger på så kallad djupinlärning. Programmet har matats med träningsdata i form av alla kända proteiner. Där finns också annan värdefull information, till exempel om hur proteiner interagerar med varandra.

Arne Elofsson och hans kollegor kunde snabbt visa att algoritmen är ett användbart verktyg för att förstå hur proteiner interagerar med andra proteiner. De gick igenom 65 000 kända proteininteraktioner och lyckades också modellera strukturen på flera tusen av dessa.

Tvärvetenskaplig forskning

De positiva erfarenheterna har lett fram till det aktuella projektet. Där ingår forskare vid Stockholms universitet, KTH och Uppsala universitet med expertis inom bland annat bioinformatik, datavetenskap, grafnätverk och masspektrometri.

Forskarna planerar att använda nya metoder inom maskininlärning för att identifiera olika proteiner, så kallade protoformer. Därefter går man vidare med en kartläggning av hur de samspelar med varandra, bland annat med hjälp av AI-tekniken.

Resultaten kan sedan verifieras på olika sätt. Korslänkning används för att studera vilka proteiner som binder till specifika DNA-sekvenser. Masspektrometri är en grundläggande metod för att bestämma sammansättningen av proteinkomplex och är en känslig och snabb teknik som fångar upp proteiner även i låga koncentrationer.

En milstolpe inom biologin

Projektet bedrivs i internationell konkurrens, men Sverige hävdar sig bra, anser Arne Elofsson. En betydelsefull faktor är miljardsatsningarna från Knut och Alice Wallenbergs Stiftelse på datadriven life science och Berzelius, Sveriges snabbaste superdator för AI och maskininlärning.

– Biologin blir mer och mer datadriven och det är grundläggande att utveckla metoder som kan användas av alla för att föra forskningen framåt. Därför är det väldigt roligt att en stor del av projektet bidrar till metodutveckling, säger Arne Elofsson.

På lång sikt är förhoppningen att forskningen ska ge en komplett bild av de molekylära komponenterna i en mänsklig cell och deras interaktioner. Det skulle innebära en milstolpe för biologin och öka kunskapen om komplexa biologiska processer och sjukdomar på molekylär nivå.

–Vi skulle kunna utföra simuleringar av hela celler och studera deras funktioner på en detaljerad nivå som tidigare varit otänkbar, säger Arne Elofsson.

Text Nils Johan Tjärnlund
Bild Magnus Bergström