Em 1889, um médico francês chamado François-Gilbert Viault desceu uma montanha nos Andes, tirou um pouco de sangue do braço e o analisou no microscópio. Ele percebeu que seus glóbulos vermelhos, responsáveis por transportar oxigênio, tinham aumentado em 42%. Viault descobriu um truque fascinante do corpo humano: quando precisamos de mais glóbulos vermelhos, nosso corpo é capaz de produzi-los sob demanda.
No início dos anos 1900, os cientistas suspeitaram que um hormônio estivesse por trás desse fenômeno. Chamaram esse hormônio hipotético de eritropoietina, que significa “fabricante vermelho” em grego. Setenta anos depois, pesquisadores finalmente encontraram a eritropoietina de verdade, após filtrar 670 galões de urina.
Avançando cerca de 50 anos, biólogos em Israel anunciaram a descoberta de uma célula rara nos rins que produz esse hormônio quando os níveis de oxigênio caem. Eles a chamaram de célula Norn, em homenagem às divindades nórdicas que controlam o destino humano.
Os humanos levaram 134 anos para identificar as células Norn. No verão passado, computadores na Califórnia conseguiram fazer isso em apenas seis semanas.
Isso aconteceu quando pesquisadores de Stanford programaram computadores para aprender biologia de forma autônoma. Utilizando um programa de inteligência artificial parecido com o ChatGPT, que se tornou fluente em linguagem após treinar com bilhões de textos da internet, os pesquisadores treinaram seus computadores com dados brutos sobre milhões de células reais e suas composições químicas e genéticas.
Os cientistas não explicaram aos computadores o que significavam essas medições, nem que diferentes tipos de células têm diferentes perfis bioquímicos. Eles não disseram, por exemplo, quais células captam luz nos nossos olhos ou quais produzem anticorpos.
Os computadores processaram os dados sozinhos, criando um modelo de todas as células com base nas similaridades entre elas em um vasto espaço multidimensional. Quando terminaram, haviam aprendido uma quantidade impressionante. Conseguiram identificar uma célula desconhecida como um dos mais de mil tipos diferentes. Uma delas era a célula Norn.
“Isso é notável, porque ninguém nunca disse ao modelo que uma célula Norn existe no rim”, disse Jure Leskovec, cientista da computação de Stanford que treinou os computadores.
Esse software é um dos vários novos programas de IA, conhecidos como modelos de fundação, que estão revolucionando a biologia. Eles não estão apenas organizando informações já conhecidas, mas fazendo descobertas sobre como os genes funcionam e como as células se desenvolvem.
À medida que esses modelos de inteligência artificial ficam cada vez mais poderosos, com mais dados de laboratório e maior capacidade de processamento, os cientistas acreditam que eles vão fazer descobertas ainda mais profundas. Imagine desvendar segredos sobre o câncer e outras doenças ou até descobrir como transformar um tipo de célula em outro!
“Uma descoberta vital sobre biologia que de outra forma não teria sido feita pelos biólogos — acho que veremos isso em algum momento”, disse o Dr. Eric Topol, diretor do Scripps Research Translational Institute.
Mas até onde essas descobertas podem ir? Isso é um grande ponto de interrogação. Alguns céticos acham que os modelos de IA vão acabar esbarrando em um limite. Por outro lado, os cientistas mais otimistas acreditam que esses modelos podem até responder à maior pergunta de todas na biologia: O que realmente separa a vida da não vida?
Assim como o ChatGPT, os modelos biológicos às vezes cometem erros. Kasia Kedzierska, bióloga computacional da Universidade de Oxford, e sua equipe recentemente testaram dois desses modelos, o GeneFormer e o scGPT. Eles apresentaram aos modelos atlas de células inéditos e os desafiaram a classificar as células em diferentes tipos. Os modelos se saíram bem em algumas tarefas, mas em outras, ficaram atrás de programas de computador mais simples.
A Dra. Kedzierska disse que tinha grandes esperanças nesses modelos, mas alertou: “eles não devem ser usados imediatamente sem uma compreensão adequada de suas limitações”.
O Dr. Leskovec comentou que os modelos estavam melhorando conforme eram treinados com mais dados. Mas, comparado ao treinamento do ChatGPT em toda a internet, os atlas de células ainda fornecem uma quantidade modesta de informações. “Eu gostaria de uma internet inteira de células”, disse ele.
Mais células estão a caminho, com a entrada em operação de atlas celulares maiores. E os cientistas estão coletando diferentes tipos de dados de cada uma das células nesses atlas. Alguns estão catalogando as moléculas que se ligam aos genes ou tirando fotos das células para mapear a localização exata de suas proteínas. Todas essas informações ajudarão os modelos a entender melhor o funcionamento das células.
Além disso, cientistas estão desenvolvendo ferramentas que permitem que esses modelos combinem o que aprendem por conta própria com o conhecimento já descoberto pelos biólogos. A ideia é conectar as descobertas de milhares de artigos científicos publicados aos bancos de dados de medições celulares.
Alguns cientistas têm suas dúvidas sobre até onde os modelos fundamentais podem chegar na “Viagem Fantástica” da biologia. Esses modelos são tão bons quanto os dados com que são alimentados. Fazer uma nova descoberta importante pode depender de dados que ainda nem sabemos como coletar. Podemos nem saber quais dados os modelos realmente precisam.
“Eles podem fazer algumas novas descobertas interessantes”, disse Sara Walker, física da Arizona State University que estuda a base física da vida. “Mas, no fim das contas, eles são limitados quando se trata de novos avanços fundamentais.”
Ainda assim, o desempenho impressionante dos modelos de fundação já fez seus criadores refletirem sobre o papel dos biólogos humanos em um mundo onde computadores fazem descobertas importantes por conta própria. Tradicionalmente, biólogos são recompensados por experimentos criativos e demorados que revelam os mecanismos da vida. Mas os computadores podem identificar esses mecanismos em semanas, dias ou até horas, escaneando bilhões de células em busca de padrões que nós não conseguimos ver.
“Isso vai forçar uma reconsideração completa do que consideramos criatividade”, disse o Dr. Quake. “Os professores devem ficar muito, muito nervosos.”