Revolución en biotecnología: IA de EvolutionaryScale crea nueva proteína en tiempo récord, desafiando la evolución natural

Una IA revolucionaria recrea una proteína inexistente
Una IA revolucionaria recrea una proteína inexistente

Científicos de EvolutionaryScale, una empresa dedicada al desarrollo de Inteligencia Artificial (IA) para la comprensión de la biología, han logrado que uno de sus modelos de lenguaje grande (LLM) genere una nueva proteína que no se encuentra en la naturaleza. Este avance es notable, ya que, según los expertos, para que las condiciones naturales pudieran crear esta proteína, se requerirían aproximadamente 500 millones de años de evolución.

EvolutionaryScale ha desarrollado un modelo de IA denominado ESM3, que tiene la capacidad de programar y crear bajo un concepto que ellos denominan “código de la vida”. Este concepto se basa en la idea de que la biología podría ser “programable” a niveles que aún no son completamente comprendidos por los científicos. Para ilustrar este punto, se menciona que el ribosoma, un orgánulo celular encargado de la síntesis de proteínas, utiliza códigos en forma de ARN para construir proteínas desde cero, lo que representa un proceso de fabricación molecular a escala atómica.

Los expertos se preguntan cómo es que el ribosoma realiza esta programación y cuál sería el lenguaje que utiliza. En un comunicado de EvolutionaryScale, se afirma: “Cada célula de cada organismo de la Tierra tiene miles o millones de estas fábricas moleculares. Pero incluso las herramientas computacionales más sofisticadas creadas hasta la fecha apenas arañan la superficie: la biología está escrita en un lenguaje que aún no entendemos”.

Si los científicos logran aprender a leer y escribir el código de la vida, la biología podría ser programable. Esto es precisamente lo que ESM3 está logrando a través de simulaciones, facilitando a los científicos una mejor comprensión de estos procesos.

Una nueva proteína

Los investigadores de la compañía biotecnológica publicaron un estudio preliminar en la revista Science en enero, donde detallan cómo este modelo artificial generó una nueva proteína fluorescente verde (GFP), similar a las que producen las medusas o los corales. Esta nueva proteína ha sido nombrada esmGFP. Según los expertos, esta proteína presenta un 58% de similitud con la proteína existente más cercana. En el estudio se explica: “A partir de la tasa de diversificación de las GFP encontradas en la naturaleza, estimamos que esta generación de una nueva proteína fluorescente es equivalente a simular más de 500 millones de años de evolución”.

Con esta capacidad, ESM3 se convierte en el primer modelo de IA generativa en biología que puede razonar simultáneamente sobre la secuencia, estructura y función de las proteínas.

¿Cómo lo hicieron?

El proceso de creación de esta nueva proteína se basa en el entrenamiento del modelo. Los científicos entrenaron a ESM3 con datos de miles de millones de proteínas para mostrarle la diversidad biológica de la Tierra, “desde la selva amazónica hasta las profundidades de los océanos”, según afirman. Además, el entrenamiento se realizó “a escala”, lo que significa que a medida que aumentan los parámetros, datos y capacidad de cómputo, la IA desarrolla capacidades emergentes. Este enfoque es característico de los modelos de lenguaje grande, y se alinea con la biología misma.

En el comunicado de EvolutionaryScale, se explica: “Los modelos de lenguaje operan sobre unidades discretas o tokens. Para crear uno que pueda razonar sobre tres de las propiedades biológicas fundamentales de las proteínas (secuencia, estructura y función), tuvimos que transformar la estructura y la función tridimensionales en alfabetos discretos y construir una forma de escribir cada estructura tridimensional como una secuencia de letras. Esto permite entrenar ESM3 a escala, desbloqueando capacidades generativas emergentes. El vocabulario de ESM3 une secuencia, estructura y función, todo dentro del mismo modelo de lenguaje”.

ESM3 se entrena con un objetivo simple. Para cada proteína, se extraen, tokenizan y enmascaran parcialmente su secuencia, estructura y función. La tarea de ESM3 es predecir las posiciones enmascaradas utilizando el objetivo de modelado de lenguaje enmascarado inspirado en los modelos de procesamiento del lenguaje natural. Para lograr esta tarea, ESM3 debe aprender a comprender en profundidad la conexión entre la secuencia, la estructura y la función en los datos a escala evolutiva. Cuando se escala en miles de millones de proteínas y miles de millones de parámetros, ESM3 aprende a simular la evolución”, añaden los expertos.

La IA creó una proteína, ¿y luego?

Los expertos de EvolutionaryScale señalan que una capacidad como esta “exige un compromiso con los principios del desarrollo responsable”, por lo que la compañía está compartiendo constantemente sus datos, códigos y hallazgos en su sitio web y a través de revistas científicas, con el objetivo de beneficiar al público.

En su declaración, manifestaron: “Nuestra misión es desarrollar IA para comprender la biología en beneficio de la salud humana y la sociedad, a través de la colaboración con la comunidad científica y una investigación abierta, segura y responsable”. Con el desarrollo de IAs como ESM3, los científicos podrían obtener una mejor comprensión de los complejos sistemas biológicos, lo que podría llevar a la identificación de curas para diversas enfermedades.