Professor Ethan Mollick, da Wharton School da Universidade da Pensilvânia, fez em 25/4 no X uma postagem com uma observação que causa forte impacto na comunidade acadêmica: atualmente, os agentes de IA já conseguem reproduzir de forma independente resultados complexos de pesquisas acadêmicas apenas com descrições públicas do método e dos dados, sem a necessidade de o artigo original e sem o código original. Mollick ainda apontou que, quando essas versões reproduzidas por IA diferem do artigo original, “os erros muitas vezes estão no próprio texto humano, e não na IA”. Isso representa uma virada concreta para a crise de reprodutibilidade na era da IA generativa — a validação entre pares, que antes exigia mão de obra cara, está sendo concluída em larga escala e a baixo custo por IA.
Claude reproduz múltiplos artigos e depois usa o GPT-5 Pro para uma dupla verificação
Em seu blog OneUsefulThing e nesta postagem, Mollick descreveu um experimento específico com Claude: pegar um artigo acadêmico, pedir que ele abra o arquivo de arquivamento, organize os arquivos, converta automaticamente o código do STATA usado para a estatística para Python e, então, execute um a um todos os achados do artigo. Depois de o Claude concluir, ele faz uma segunda rodada de checagem do mesmo resultado de reprodução com o GPT-5 Pro. Vários artigos foram testados do mesmo modo; os resultados foram, em geral, bem-sucedidos, sendo que houve impedimentos apenas quando os arquivos de dados são grandes demais ou quando há problemas com os próprios dados originais de replication data.
Para a comunidade acadêmica, esse tipo de processo normalmente exigia, no passado, que assistentes de pesquisa gastassem semanas ou até meses. A escala de tempo descrita por Mollick é de uma tarde a um dia, e o custo de execução é apenas o custo de tokens de uma API de LLM comercial.
Mais erros estão no texto humano, não na IA
Mais controverso ainda é o julgamento de Mollick sobre “quem errou”. Em sua postagem, ele deixou claro que, quando os resultados reproduzidos por IA não coincidem com o artigo original, na maioria das vezes não é a IA que erra, e sim que o artigo original tem erros no processamento de dados, uso incorreto do modelo ou conclusões além do alcance dos dados que sustentam o estudo. Na psicologia, economia comportamental, administração e outras ciências sociais, já ocorreram várias crises importantes de reprodutibilidade nos últimos dez anos; o caso mais famoso é o grande estudo de reprodução do Open Science Collaboration em 2015, no qual apenas cerca de 36% dos resultados dos artigos de psicologia puderam ser reproduzidos independentemente. O agent de IA está levando esse processo de verificação da fronteira em que “precisa de adequação de recursos humanos” para a fronteira em que “pode ser executado de forma universal”.
Aprenderam ainda não deixar AI entrar na revisão por pares; instituição atrasada em relação à tecnologia
Em outra postagem de 4/25, Mollick citou explicitamente que, na área à qual pertence, a maior associação, a Academy of Management, ainda proíbe formalmente que IA entre no processo de submissão de artigos para avaliação. Ele citou estudos existentes que indicam que a revisão por IA já é superior a alguns avaliadores humanos tradicionais em precisão, consistência e controle de vieses; por isso, “a postura de ‘proibir’” pode, na prática, agravar ainda mais a falha do sistema de revisão que já existe. A lacuna entre esse tipo de instituição e a tecnologia é um tema de política que a comunidade de publicações acadêmicas, as associações e as agências de fomento terão de enfrentar nos próximos 1–2 anos.
Para os leitores, este debate não se limita ao meio acadêmico. Quando o agent de IA consegue verificar descobertas de pesquisa em tempo real, a base acadêmica nas citações de pesquisas industriais, relatórios de políticas e decisões financeiras passará a entrar em um novo critério de verificação: “as conclusões aguentam uma reprodução independente por IA?”. Em complemento à postagem de outro Tweet de Mollick, ele acredita que o governo é a única entidade que pode definir a âncora desse critério de verificação à medida que a intensidade das ferramentas continua a aumentar — e a complexidade do design de políticas, de forma sincronizada, se tornará também um eixo relativamente negligenciado nas discussões de governança de IA.
Este artigo mostra que o AI Agent já pode reproduzir independentemente artigos acadêmicos complexos: Mollick diz que os erros estão mais no texto humano do que na IA, com a primeira aparição em 鏈新聞 ABMedia.
Related Articles
Guo Mingqián: A OpenAI vai fazer um celular com agentes de IA; MediaTek, Qualcomm e Luxshare Precision se tornam uma cadeia de suprimentos fundamental
Responsável pelo grande modelo de IA da Xiaomi: a competição em IA está mudando para a era dos Agentes; a autoevolução é o evento-chave para a AGI
Nuvem Tencent QClaw integra a estrutura Hermes, suportando a troca entre vários modelos, como o DeepSeek-V4 Pro
A voz do Grok da xAI assume a linha de atendimento ao cliente da Starlink, 70% das ligações são encerradas automaticamente
Ecossistema FLOA lança suíte de IA FloaClaw com matriz de habilidades multi-cenários