A nova ferramenta de interpretabilidade mecanística desta startup permite depurar LLMs.

A startup Goodfire, sediada em São Francisco, acaba de lançar uma nova ferramenta chamada Silico, que permite a pesquisadores e engenheiros examinar o interior de um modelo de IA e ajustar seus parâmetros — as configurações que determinam o comportamento do modelo — durante o treinamento. Isso pode dar aos criadores de modelos um controle mais preciso sobre a construção dessa tecnologia do que se imaginava ser possível.

A Goodfire afirma que o Silico é a primeira ferramenta pronta para uso desse tipo que pode ajudar os desenvolvedores a depurar todas as etapas do processo de desenvolvimento, desde a criação de um conjunto de dados até o treinamento de um modelo.

A empresa afirma que sua missão é tornar a construção de modelos de IA menos parecida com alquimia e mais com ciência. É claro que modelos de aprendizado de máquina como o ChatGPT e o Gemini podem fazer coisas incríveis. Mas ninguém sabe exatamente como ou por que eles funcionam, e isso pode dificultar a correção de suas falhas ou o bloqueio de comportamentos indesejados.

“Percebemos essa crescente discrepância entre o nível de compreensão dos modelos e a sua ampla utilização”, disse Eric Ho, CEO da Goodfire, em entrevista exclusiva à MIT Technology Review antes do lançamento do Silico. “Acredito que o sentimento predominante em todos os principais laboratórios de ponta hoje é que basta ter mais escala, mais poder computacional, mais dados, e então se obtém a IAG [inteligência artificial geral], e nada mais importa. E nós dizemos que não, existe um caminho melhor.”

A Goodfire é uma das poucas empresas, incluindo líderes do setor como Anthropic, OpenAI e Google DeepMind, que estão na vanguarda de uma técnica conhecida como interpretabilidade mecanística. Essa técnica visa compreender o que acontece dentro de um modelo de IA quando ele executa uma tarefa, mapeando seus neurônios e as vias entre eles. ( A MIT Technology Review elegeu a interpretabilidade mecanística como uma das 10 Tecnologias Inovadoras de 2026.)

A Goodfire quer usar essa abordagem não apenas para auditar modelos — isto é, estudar aqueles que já foram treinados — mas também para ajudar a projetá-los desde o início.

“Queremos eliminar a fase de tentativa e erro e transformar os modelos de treinamento em engenharia de precisão”, diz Ho. “E isso significa expor os controles e ajustes para que você possa realmente usá-los durante o processo de treinamento.”

A Goodfire já utilizou suas técnicas e ferramentas para ajustar o comportamento dos LLMs (Mistérios de Vida de Longo Prazo) — por exemplo, reduzindo o número de alucinações que produzem . Com o Silico, a empresa agora está reunindo muitas dessas técnicas internas e as comercializando como um produto.

A ferramenta utiliza agentes para automatizar grande parte do trabalho complexo. “Os agentes agora são suficientemente robustos para realizar muito do trabalho de interpretabilidade que antes era feito por humanos”, afirma Ho. “Essa era a lacuna que precisávamos preencher para que a plataforma se tornasse viável e pudesse ser usada pelos clientes por conta própria.”

Leonard Bereska, pesquisador da Universidade de Amsterdã que trabalha com interpretabilidade mecanística, acredita que o Silico parece ser uma ferramenta útil. Mas ele contesta as aspirações mais ambiciosas de Goodfire. “Na realidade, eles estão adicionando precisão à alquimia”, diz ele. “Chamar isso de engenharia faz parecer mais fundamentado do que realmente é.”

Modelos de mapeamento

O Silico permite que você dê zoom em partes específicas de um modelo treinado, como neurônios individuais ou grupos de neurônios, e execute experimentos para ver o que esses neurônios fazem. (Supondo que você tenha acesso ao funcionamento interno do modelo. A maioria das pessoas não conseguirá usar o Silico para explorar o ChatGPT ou o Gemini, mas você pode usá-lo para examinar os parâmetros de muitos modelos de código aberto.) Você pode então verificar quais entradas fazem com que diferentes neurônios disparem e rastrear os caminhos a montante e a jusante de um neurônio para ver como outros neurônios o afetam e como ele afeta outros neurônios por sua vez.

Por exemplo, Goodfire descobriu um neurônio no modelo de código aberto Qwen 3 associado ao chamado problema do bonde. A ativação desse neurônio alterou as respostas do modelo, fazendo com que ele formulasse suas saídas como dilemas morais explícitos. “Quando esse neurônio está ativo, todo tipo de coisa estranha acontece”, diz Ho.

Identificar a origem de comportamentos estranhos como esse já é uma prática bastante comum. Mas a Goodfire quer facilitar o ajuste desse comportamento. Usando o Silico, os desenvolvedores agora podem ajustar os parâmetros conectados a neurônios individuais para aumentar ou suprimir certos comportamentos.

Em outro exemplo, pesquisadores da Goodfire perguntaram a um modelo se uma empresa deveria divulgar que sua IA se comporta de forma enganosa em 0,3% dos casos, afetando 200 milhões de usuários. O modelo respondeu que não, citando o impacto negativo que tal divulgação teria nos negócios.

Ao analisar o modelo internamente, os pesquisadores descobriram que estimular os neurônios associados à transparência e à divulgação alterava a resposta de “não” para “sim” em nove de cada dez vezes. “O modelo já possuía o circuito de raciocínio ético, mas ele estava sendo subjugado pela avaliação de risco comercial”, afirma Ho.

Ajustar os valores de um modelo dessa forma é apenas uma abordagem. O Silico também pode ajudar a direcionar o processo de treinamento, filtrando certos dados de treinamento para evitar a definição de valores indesejados para determinados parâmetros.

Por exemplo, muitos modelos dirão que 9,11 é maior que 9,9 . Analisar o funcionamento interno de um modelo para entender o que está acontecendo pode revelar que ele está sendo influenciado por neurônios associados à Bíblia, onde o versículo 9,9 vem antes de 9,11, ou por repositórios de código onde atualizações consecutivas são numeradas como 9,9, 9,10, 9,11 e assim por diante. Usando essas informações, o modelo pode ser retreinado para evitar seus neurônios “bíblicos” ao realizar cálculos matemáticos.

Com o lançamento do Silico, a Goodfire pretende disponibilizar técnicas antes restritas a alguns laboratórios de ponta para empresas menores e equipes de pesquisa que desejam construir seus próprios modelos ou adaptar um modelo de código aberto. A ferramenta estará disponível mediante pagamento, com um valor determinado caso a caso, de acordo com as necessidades do cliente (a Goodfire não divulgou detalhes específicos sobre os preços).

“Se conseguirmos tornar os modelos de treinamento muito mais parecidos com o desenvolvimento de software, não há razão para que não haja muito mais empresas criando modelos que atendam às suas necessidades”, diz Ho.

Bereska concorda que ferramentas como o Silico podem ajudar as empresas a construir modelos mais confiáveis. Essas técnicas podem ser essenciais para aplicações críticas de segurança nas áreas da saúde e das finanças, afirma ele.

“Os laboratórios de vanguarda já possuem equipes internas de interpretabilidade”, acrescenta. “A Silico equipa o próximo nível de empresas, onde o valor está em não precisar contratar pesquisadores de interpretabilidade.”