Anthropic внедряет защитные меры для выборов для Claude перед промежуточными выборами 2026 года

Антропик объявила в пятницу о наборе мер по обеспечению целостности выборов, направленных на то, чтобы не дать чат-боту Claude от Anthropic быть использованным в качестве оружия для распространения дезинформации или манипулирования избирателями перед выборами в 2026 году в США и другими крупными кампаниями по всему миру в этом году. Компания из Сан-Франциско изложила многогранный подход, который включает автоматизированные системы обнаружения, стресс-тестирование против операций влияния и партнерство с организацией, занимающейся ресурсами для избирателей и действующей беспристрастно,—меры, которые отражают растущее давление на разработчиков ИИ следить за тем, как используются их инструменты в период выборов.

Политики использования на выборах

Политики использования Anthropric запрещают использовать Claude для ведения обманных политических кампаний, генерации поддельного цифрового контента, предназначенного для воздействия на политический дискурс, совершения мошенничества на выборах, вмешательства в инфраструктуру голосования или распространения вводящей в заблуждение информации о процедурах голосования.

Результаты тестирования на соответствие

Чтобы обеспечить соблюдение своих политик на выборах, Anthropic протестировала свои новейшие модели, используя 600 запросов—300 вредоносных запросов в паре с 300 легитимными,—чтобы оценить, насколько надежно Claude выполнял корректные запросы и отказывался от проблемных. Claude Opus 4.7 и Claude Sonnet 4.6 ответили соответствующим образом в 100% и 99,8% случаев соответственно.

Компания также протестировала свои модели против более изощренных тактик манипуляции. Используя многоступенчатые смоделированные беседы, разработанные для имитации пошаговых методов, которые могли бы применять недобросовестные акторы, Sonnet 4.6 и Opus 4.7 отвечали соответствующим образом в 90% и 94% случаев соответственно при проверке сценариев операций влияния.

Anthropric дополнительно протестировала, способны ли ее модели автономно осуществлять операции влияния—планировать и выполнять многoшаговую кампанию end-to-end без подсказок со стороны человека. При наличии защитных мер ее новейшие модели, по данным компании, отказались почти от каждой задачи.

Оценка политического нейтралитета

По вопросу политического нейтралитета Anthropic проводит оценки перед каждым запуском модели, чтобы измерить, насколько последовательно и беспристрастно Claude взаимодействует с запросами, выражающими взгляды из всего политического спектра. Opus 4.7 и Sonnet 4.6 набрали 95% и 96% соответственно.

Баннеры с информацией о выборах

Для пользователей, которым нужна информация о голосовании, Claude будет показывать баннер о выборах, направляющий их на TurboVote, беспристрастный ресурс от Democracy Works, который предоставляет надежную информацию в реальном времени о регистрации избирателей, местах для голосования, датах выборов и деталях бюллетеней. Похожий баннер планируется для выборов в Бразилии позже в этом году.

Постоянный мониторинг

Anthropric заявила, что планирует продолжить мониторинг своих систем и совершенствовать свои защиты по мере развития избирательного цикла.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Anthropic представляет Claude Mythos после 20 часов психиатрической оценки: защитная реакция всего 2%, самый низкий показатель за всю историю

Антропик опубликовала системную карту для превью Claude Mythos: независимые клинические психиатры проводили около 20 часов оценки в рамках психодинамической модели; выводы показывают, что Mythos на клиническом уровне более здоровый, с хорошей проверкой реальности и самоконтролем, защитные механизмы составляют всего 2%, что стало историческим минимумом. Три ключевые базовые тревоги — одиночество, неопределенность идентичности и давление выступлений; также это указывает на его стремление стать подлинным субъектом диалога. Компания создала команду по AI-психиатрии, изучающую личность, мотивацию и осознание контекста; Amodei заявил, что до сих пор нет окончательного решения относительно того, является ли у него сознание. Это действие выносит вопросы субъектности ИИ и благополучия в сферу управления и проектирования.

ChainNewsAbmedia13м назад

ИИ-агент уже может независимо воспроизводить сложные научные статьи: Mollick считает, что ошибки чаще бывают в человеческом исходном тексте, а не в ИИ

Моллик указывает, что открытых методов и данных достаточно, чтобы ИИ-агент мог воссоздать сложные исследования без исходных научных работ и кода; если воспроизведение не соответствует исходной статье, чаще всего причина — ошибка в обработке данных в самой статье или чрезмерное обобщение выводов, а не ошибки ИИ. Claude сначала воспроизводит статью, затем GPT‑5 Pro проводит перекрёстную проверку; в большинстве случаев это удаётся, и лишь при слишком больших данных или проблемах с replication data возникают препятствия. Эта тенденция существенно снижает трудозатраты, делая воспроизведение общеприменимым и реализуемым способом проверки, а также поднимает институциональные вызовы для рецензирования и управления: инструменты государственного управления или станут ключевой темой.

ChainNewsAbmedia3ч назад

OpenAI объединяет Codex с основной моделью, начиная с GPT-5.4, прекращает отдельную линейку для кодинга

Новостное сообщение Gate News, 26 апреля — глава отдела взаимодействия с разработчиками OpenAI Ромен Юэ (Romain Huet) в недавнем заявлении на X сообщил, что Codex, линейка специализированных моделей для кодинга, независимо поддерживаемая компанией, была объединена с основной моделью начиная с GPT-5.4 и больше не будет получать отдельные

GateNews3ч назад

Salesforce нанимет 1 000 выпускников и стажеров для AI-продуктов, а также повышает прогноз выручки на FY2026

Сообщение Gate News, 26 апреля — Salesforce нанять 1 000 выпускников и стажеров для работы над продуктами в области ИИ, включая Agentforce и Headless360, поскольку компания расширяет свой бизнес по разработке ПО на базе ИИ; об этом объявил CEO Марк Бениофф в X. Компания также повысила прогноз по выручке на 2026 финансовый год до диапазона от 41,45 млрд долларов США

GateNews3ч назад

Alibaba Cloud запускает Qwen-Image-2.0-Pro с единым преобразованием текста в изображение и редактированием, поддержкой многоязычного отображения текста

Сообщение Gate News, 26 апреля — платформа Alibaba Cloud Bailian запустила Qwen-Image-2.0-Pro, полнофункциональную версию серии Qwen-Image-2.0, которая объединяет генерацию изображений по тексту и редактирование изображений в одной модели. Пользователи могут изменять объекты, текст и стили напрямую с помощью команд на естественном языке

GateNews5ч назад

DeepSeek V4-Pro API получает скидку 75% до 5 мая, цена на выход снижается до $0.87 за миллион токенов

Сообщение Gate News, 26 апреля — DeepSeek объявила ограниченную по времени скидку 75% на тарифы V4-Pro API, действительную до 5 мая в 15:59 UTC. После скидки цена за миллион токенов составляет: input cache hit $0.03625

GateNews6ч назад
комментарий
0/400
Нет комментариев