Anthropic Descobre 'Eixo do Assistente' para Prevenir Jailbreaks de IA e Desvios de Persona
Pesquisadores da Anthropic mapeiam o 'espaço de persona' neural em LLMs, encontrando um eixo-chave que controla a estabilidade da personagem de IA e bloqueia padrões de comportamento prejudiciais.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
#BREAKING
Anthropic Descobre 'Eixo do Assistente' para Prevenir Jailbreaks de IA e Desvios de Persona
Pesquisadores da Anthropic mapeiam o 'espaço de persona' neural em LLMs, encontrando um eixo-chave que controla a estabilidade da personagem de IA e bloqueia padrões de comportamento prejudiciais.
#Bitcoin $BTC