La fel cum ChatGPT generează text prin predicţii cu privire la cele mai probabile cuvinte care urmează într-o propoziţie, un nou model de inteligenţă artificială (AI) poate genera noi proteine “care nu există în natură”, conform unui material publicat joi de Live Science, transmite Agerpres.
Oameni de ştiinţă au folosit noul model AI, denumit ESM3, pentru a obţine o proteină nouă, fluorescentă, care are în comun doar 58% din secvenţa sa cu alte proteine fluorescente naturale, conform rezultatelor unui studiu publicat la 2 iulie în baza de date preprint bioRxiv. Studiul a fost realizat de cercetători de la EvolutionaryScale, o companie formată de foşti cercetători din cadrul Meta.
Echipa de cercetare a lansat o versiune redusă a modelului sub o licenţă noncomercială şi va face varianta completă să fie disponibilă pentru cercetători în scopuri comerciale. Conform EvolutionaryScale, tehnologia poate fi folosită în diverse domenii, de la descoperirea drogurilor, la conceperea unor noi substanţe chimice pentru degradarea plasticului.
ESM3 este un model mare de limbaj (LLM) similar cu GPT-4 aparţinând OpenAI, iar oamenii de ştiinţă au antrenat versiunea sa completă pe 2,78 miliarde de proteine. Pentru fiecare proteină, ei au extras informaţii cu privire la secvenţă (ordinea în care sunt dispuşi aminoacizii care compun proteina), structură (forma 3D a proteinei) şi funcţia ei. Apoi, aleatoriu, au extras părţi din aceste informaţii şi au solicitat modelului ESM3 să prezică părţile lipsă.
Cercetătorii au precizat însă că acest model are limitări şi că prediciţiile de proteine pe care le face necesită verificare. Dar chiar şi aşa, folosirea unui astfel de model AI poate accelera masiv căutarea de noi structuri proteice, pentru că alternativa ar fi folosirea razelor X pentru a cartografia structurile proteinelor una câte una, ceea ce este prea lent şi costisitor.
ESM3 poate însă să asambleze şi proteine care nu există în natură. Folosind informaţia obţinută de la 771 de miliarde de date unice cu privire la structură, funcţie şi secvenţă, modelul poate genera noi proteine cu anumite funcţii.
În noul studiu, modelul a generat o nouă proteină florescentă – un tip de proteină care captează lumina şi o emite apoi pe o lungime de undă mai mare, făcând-o să strălucească într-o nouă nuanţă de verde. Aceste proteine sunt importante pentru biologi care le ataşează de moleculele pe care le studiază, pentru a le putea urmări.
Modelul a generat 96 de proteine cu secvenţe şi structuri care le-ar permite să producă fluorescenţă. Apoi cercetătorii au ales o proteină care are cele mai puţine secvenţe în comun cu proteinele fluorescente din natură. Deşi această proteină este de 50 de ori mai puţin strălucitoare decât proteinele verde fluorescent naturale, ESM3 a generat o altă variantă cu noi secvenţe care a dus la o creştere a strălucirii sale – iar rezultatul a fost o proteină verde fluorescentă care nu se mai găseşte în natură, denumită “esmGPF”. Astfel de variante create de AI ar avea nevoie de 500 de milioane de ani pentru a fi obţinute natural, prin evoluţie, conform unei estimări a echipei EvolutionaryScale.