O Agente de IA já pode reproduzir de forma independente artigos acadêmicos complexos: Mollick diz que os erros estão mais no texto original humano do que na IA

Professor Ethan Mollick, da Wharton School da Universidade da Pensilvânia, fez em 25/4 no X uma postagem com uma observação que causa forte impacto na comunidade acadêmica: atualmente, os agentes de IA já conseguem reproduzir de forma independente resultados complexos de pesquisas acadêmicas apenas com descrições públicas do método e dos dados, sem a necessidade de o artigo original e sem o código original. Mollick ainda apontou que, quando essas versões reproduzidas por IA diferem do artigo original, “os erros muitas vezes estão no próprio texto humano, e não na IA”. Isso representa uma virada concreta para a crise de reprodutibilidade na era da IA generativa — a validação entre pares, que antes exigia mão de obra cara, está sendo concluída em larga escala e a baixo custo por IA.

Claude reproduz múltiplos artigos e depois usa o GPT-5 Pro para uma dupla verificação

Em seu blog OneUsefulThing e nesta postagem, Mollick descreveu um experimento específico com Claude: pegar um artigo acadêmico, pedir que ele abra o arquivo de arquivamento, organize os arquivos, converta automaticamente o código do STATA usado para a estatística para Python e, então, execute um a um todos os achados do artigo. Depois de o Claude concluir, ele faz uma segunda rodada de checagem do mesmo resultado de reprodução com o GPT-5 Pro. Vários artigos foram testados do mesmo modo; os resultados foram, em geral, bem-sucedidos, sendo que houve impedimentos apenas quando os arquivos de dados são grandes demais ou quando há problemas com os próprios dados originais de replication data.

Para a comunidade acadêmica, esse tipo de processo normalmente exigia, no passado, que assistentes de pesquisa gastassem semanas ou até meses. A escala de tempo descrita por Mollick é de uma tarde a um dia, e o custo de execução é apenas o custo de tokens de uma API de LLM comercial.

Mais erros estão no texto humano, não na IA

Mais controverso ainda é o julgamento de Mollick sobre “quem errou”. Em sua postagem, ele deixou claro que, quando os resultados reproduzidos por IA não coincidem com o artigo original, na maioria das vezes não é a IA que erra, e sim que o artigo original tem erros no processamento de dados, uso incorreto do modelo ou conclusões além do alcance dos dados que sustentam o estudo. Na psicologia, economia comportamental, administração e outras ciências sociais, já ocorreram várias crises importantes de reprodutibilidade nos últimos dez anos; o caso mais famoso é o grande estudo de reprodução do Open Science Collaboration em 2015, no qual apenas cerca de 36% dos resultados dos artigos de psicologia puderam ser reproduzidos independentemente. O agent de IA está levando esse processo de verificação da fronteira em que “precisa de adequação de recursos humanos” para a fronteira em que “pode ser executado de forma universal”.

Aprenderam ainda não deixar AI entrar na revisão por pares; instituição atrasada em relação à tecnologia

Em outra postagem de 4/25, Mollick citou explicitamente que, na área à qual pertence, a maior associação, a Academy of Management, ainda proíbe formalmente que IA entre no processo de submissão de artigos para avaliação. Ele citou estudos existentes que indicam que a revisão por IA já é superior a alguns avaliadores humanos tradicionais em precisão, consistência e controle de vieses; por isso, “a postura de ‘proibir’” pode, na prática, agravar ainda mais a falha do sistema de revisão que já existe. A lacuna entre esse tipo de instituição e a tecnologia é um tema de política que a comunidade de publicações acadêmicas, as associações e as agências de fomento terão de enfrentar nos próximos 1–2 anos.

Para os leitores, este debate não se limita ao meio acadêmico. Quando o agent de IA consegue verificar descobertas de pesquisa em tempo real, a base acadêmica nas citações de pesquisas industriais, relatórios de políticas e decisões financeiras passará a entrar em um novo critério de verificação: “as conclusões aguentam uma reprodução independente por IA?”. Em complemento à postagem de outro Tweet de Mollick, ele acredita que o governo é a única entidade que pode definir a âncora desse critério de verificação à medida que a intensidade das ferramentas continua a aumentar — e a complexidade do design de políticas, de forma sincronizada, se tornará também um eixo relativamente negligenciado nas discussões de governança de IA.

Este artigo mostra que o AI Agent já pode reproduzir independentemente artigos acadêmicos complexos: Mollick diz que os erros estão mais no texto humano do que na IA, com a primeira aparição em 鏈新聞 ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

UB (Unibase) sobe 14,96% em 24 horas

Notícia da Gate, 27 de abril: segundo o monitoramento de mercado da Gate, no momento da publicação, UB (Unibase) está cotado a US$ 0.0491; em 24 horas, subiu 14.96%, atingindo a máxima de US$ 0.0534 e recuando para a mínima de US$ 0.0423. O volume de negociação em 24 horas chegou a US$ 3.9667 milhões. A capitalização de mercado atual é de aproximadamente US$ 123 milhões. A Unibase é uma camada de memória descentralizada de IA de alto desempenho, fornecendo memória de longo prazo e interoperabilidade entre plataformas para agentes de IA, permitindo que eles memorizem, colaborem e se aprimorem de forma autônoma. A Unibase tem como objetivo construir a internet de agentes abertos, apoiando a colaboração contínua de agentes inteligentes entre ecossistemas, capacitando desenvolvedores a criarem as próximas aplicações de IA. Esta notícia não constitui recomendação de investimento; ao investir, considere os riscos de volatilidade do mercado.

GateNews3m atrás

Guo Mingqián: A OpenAI vai fazer um celular com agentes de IA; MediaTek, Qualcomm e Luxshare Precision se tornam uma cadeia de suprimentos fundamental

Guo Mingchi alega que a OpenAI está em parceria com a MediaTek, a Qualcomm e a Luxshare Precision para desenvolver um celular com AI Agent, com previsão de produção em massa em 2028. O novo telefone terá como foco a conclusão de tarefas; o agente de IA entenderá e executará as necessidades, combinando computação na nuvem e no dispositivo, com ênfase em sensores e entendimento de contexto. A lista de especificações e da cadeia de suprimentos deverá ser definida entre 2026 e 2027; se isso se concretizar, ou se trouxer um novo ciclo de troca de celulares para o mercado de ponta, a Luxshare tem chances de se tornar a principal beneficiária.

ChainNewsAbmedia16m atrás

Responsável pelo grande modelo de IA da Xiaomi: a competição em IA está mudando para a era dos Agentes; a autoevolução é o evento-chave para a AGI

A responsável pela equipe do grande modelo da Xiaomi, Luo Fuli, concedeu uma entrevista em profundidade (número do vídeo: BV1iVoVBgERD) na plataforma Bilibili em 24 de abril, com duração de 3,5 horas. Esta foi sua primeira vez, em sua função como responsável técnico, a expor de forma sistemática suas perspectivas técnicas em público. Luo Fuli afirmou que a corrida pela competição de grandes modelos passou da era do Chat para a era dos Agentes e apontou que “autoevolução” será o principal evento para a AGI no próximo ano.

MarketWhisper58m atrás

Nuvem Tencent QClaw integra a estrutura Hermes, suportando a troca entre vários modelos, como o DeepSeek-V4 Pro

De acordo com o anúncio oficial da Tencent Cloud em 27 de abril, a ferramenta de desktop QClaw do agente de IA da Tencent Cloud foi oficialmente lançada na versão v0.2.14. A Tencent Cloud afirmou que esta é a maior atualização de escala do QClaw até o momento; as principais atualizações incluem a integração da estrutura Hermes Agent, a atualização do modelo de nível inferior para o modo de alternância livre e que o “Inspiration Plaza” foi totalmente atualizado para o “Expert Plaza”.

MarketWhisper1h atrás

A voz do Grok da xAI assume a linha de atendimento ao cliente da Starlink, 70% das ligações são encerradas automaticamente

De acordo com o anúncio oficial da xAI em 23 de abril, a xAI lançou o agente de IA de voz Grok Voice Think Fast 1.0 e já foi implantado na linha de atendimento ao cliente do Starlink +1 (888) GO STARLINK. De acordo com os dados de testes divulgados no anúncio, 70% das ligações são encerradas automaticamente por IA, sem necessidade de intervenção de um humano.

MarketWhisper1h atrás

Ecossistema FLOA lança suíte de IA FloaClaw com matriz de habilidades multi-cenários

Mensagem da Gate News, 27 de abril — O ecossistema FLOA lançou oficialmente a FloaClaw, seu kit de ferramentas de IA central, com uma matriz de habilidades de IA multi-cenários. O acesso às funções da FloaClaw é limitado a usuários do Agent no nível 3 e acima. FloaClaw opera em um sistema baseado em tokens em que os usuários compram

GateNews1h atrás
Comentário
0/400
Sem comentários