Model biologic de inteligență artificială care scrie ADN la cerere
de Ewen Callaway, (preluat de pe nature.com)
O rețea de inteligență artificială antrenată pe baza unei mari cantități de date privind secvențele este un pas înainte către proiectarea unor genomuri complet noi.
Oamenii de știință au lansat ceea ce spun ei că este cel mai mare model de inteligență artificială (AI) pentru biologie
Modelul – care a fost antrenat pe 128 000 de genomuri care acoperă arborele vieții, de la oameni la bacterii și archaea unicelulare – poate scrie de la zero cromozomi întregi și genomuri mici. De asemenea, poate înțelege ADN-ul existent, inclusiv variantele genetice „necodificate” greu de interpretat care sunt legate de boli.
Evo-2, co-dezvoltat de cercetători de la Institutul Arc și Universitatea Stanford, ambele din Palo Alto, California, și de producătorul de cipuri NVIDIA
Acesta este disponibil oamenilor de știință prin interfețe web, aceștia putând descărca codul software, datele și alți parametri necesari pentru a reproduce modelul.
Dezvoltatorii văd Evo-2 ca pe o platformă pe care alții o pot adapta la propriile utilizări.
„Așteptăm cu nerăbdare să vedem cum oamenii de știință și inginerii construiesc acest ”magazin de aplicații„ pentru biologie”, a declarat Patrick Hsu, bioinginer la Institutul Arc și la Universitatea California din Berkeley, în cadrul unei conferințe de presă care a anunțat lansarea Evo-2.
Alți oameni de știință sunt impresionați de ceea ce au citit despre model – care este descris într-o lucrare postată pe site-ul web al Institutului Arc. Ei spun însă că vor trebui să mai testeze modelul înainte de a ajunge la concluzii ferme.
„Va trebui să vedem cum se descurcă în testele de referință independente după publicarea preprintului”, spune Anshul Kundaje, genomicist computațional la Universitatea Stanford din Palo Alto. Până în prezent, el este impresionat de ingineria care stă la baza modelului.
În ultimii câțiva ani, cercetătorii au dezvoltat „modele de limbaj proteic” din ce în ce mai puternice, precum modelul ESM-3 dezvoltat de foști angajați Meta
După ce au fost antrenate pe milioane de secvențe proteice, au fost utilizate pentru a ajuta la prezicerea structurilor proteice și la proiectarea unor proteine complet noi, inclusiv a editorilor de gene și a moleculelor fluorescente.
Spre deosebire de aceste modele, Evo-2 a fost antrenat pe datele genomului care conțin atât „secvențe codificatoare” – care conțin instrucțiuni pentru producerea proteinelor – cât și ADN necodificator, care include secvențe care pot controla când, unde și cum sunt active genele. Prima versiune a Evo lansată anul trecut a fost antrenată pe genomurile a 80 000 de bacterii și archaea – organisme simple numite procariote – precum și pe virușii și alte secvențe ale acestora.
Modelul Evo-2 se bazează pe predecesorul său, Evo-1, care a fost antrenat numai pe genomuri unicelulare
Evo-2 își extinde domeniul de aplicare pentru a include date de la oameni, plante, bacterii și chiar forme de viață microscopice precum fagii și archaea. Prin prelucrarea simultană a secvențelor genetice lungi de până la 1 milion de nucleotide, Evo-2 poate analiza conexiunile dintre diferitele părți ale unui genom într-un mod în care niciun cercetător uman nu ar fi putut vreodată.
Patrick Hsu de la Arc Institute, co-fondator și cercetător principal, explică: „Evo-2 are o înțelegere generalistă a arborelui vieții care este utilă pentru o multitudine de sarcini, de la prezicerea mutațiilor cauzatoare de boli la proiectarea codului potențial pentru viața artificială”.
Cel mai recent model se bazează pe 128 000 de genomuri, inclusiv cele ale oamenilor și ale altor animale, plante și alte organisme eucariote. Aceste genomuri cuprind un total de 9,3 trilioane de litere ADN. Pe baza puterii de calcul necesare pentru a devora aceste date și a altor caracteristici, Evo-2 este cel mai mare model de IA biologică lansat până acum, spune Hsu.
Evo-2 a fost antrenat folosind NVIDIA DGX Cloud AI, care rulează pe peste 2.000 de GPU-uri NVIDIA H100. Pentru a procesa o cantitate atât de mare de date, cercetătorii au trebuit să regândească modul în care ar putea fi structurat un model AI. Greg Brockman, cofondator al OpenAI, a contribuit la proiect în timpul sabaticului său, ajutând la dezvoltarea StripedHyena 2, arhitectura AI care permite Evo-2 să gestioneze date genetice de 30 de ori mai mari decât predecesorul său.
Modelul EVO 2 poate face diverse investigații:
- Să prezică mutații genetice- A obținut o precizie de 90% în identificarea mutațiilor dăunătoare în gena BRCA1, legată de cancerul de sân.
Să proiecteze elemente genetice personalizate - Oamenii de știință pot utiliza Evo-2 pentru a crea secvențe ADN care se activează numai în anumite celule, ceea ce ar putea îmbunătăți terapiile genetice.
- Să descopere modele biologice profunde – Evoluția a modelat codul genetic al vieții de-a lungul a milioane de ani, iar Evo-2 poate citi și interpreta aceste mesaje ascunse.
Viitorul IA în biologie
Pe măsură ce știința bazată pe IA avansează, Evo-2 stabilește un nou punct de referință pentru modul în care învățarea automată poate accelera cercetarea genetică.
Anthony Costa, directorul departamentului de biologie digitală al NVIDIA, spune că Evo-2 are deja un impact:
„Prin depășirea limitărilor anterioare la scara modelelor biologice, Evo-2 generalizează mai multă biologie cunoscută decât orice alt model AI de până acum”.
Acest AI nu citește doar codul genetic, ci începe să îl scrie. Datorită accesului cu sursă deschisă la datele, modelele de formare și rezultatele cercetării Evo-2, oamenii de știință din întreaga lume dispun acum de un nou instrument pentru a depăși limitele posibilităților în ingineria genetică, medicină și biotehnologie.
Următorul capitol în microbiologie a început deja.