Anthropic 在美国中期选举前为 Claude AI 推出选举保障措施

简要概述

  • Anthropic 最新的 Claude 模型在政治中立性测试中达到了 95-96%,在选举政策合规性测试中达到了 99.8-100%。
  • 该公司将在 2026 年中期选举期间部署选举信息横幅,引导用户前往可信的非党派投票资源。
  • 这些举措出台之际,各国政府正在审查人工智能可能对选举诚信以及虚假信息造成的影响。

由 Claude 聊天机器人背后的人工智能公司 Anthropic 于周五宣布,该公司推出了一系列新的选举诚信措施,旨在防止其 AI 被武器化,用来在 2026 年美国中期选举以及今年全球其他重大选举中传播虚假信息或操纵选民。 这家总部位于旧金山的公司详细介绍了多方面、协同推进的方案,其中包括自动化检测系统、针对影响力行动的压力测试,以及与一家非党派选民资源组织的合作——这些举措体现了在选举季期间,对 AI 开发者就其工具如何被使用进行监管所面临的日益增大的压力。 Anthropic 的使用政策禁止将 Claude 用于运行欺骗性的政治竞选、生成意在引导政治话语的虚假数字内容、实施选民欺诈、干扰投票基础设施,或传播有关投票流程的误导性信息。

为落实这些规则,该公司表示已将其最新模型置于一系列测试之下。Anthropic 使用 600 个提示来衡量 Claude 的合规与拒绝能力——其中 300 个为有害请求、300 个为合法请求。Claude Opus 4.7 和 Claude Sonnet 4.6 分别在 100% 和 99.8% 的时间里作出恰当回应。  该公司还将其模型置于针对更复杂操控策略的测试中。通过使用多轮模拟对话来对标不法分子可能采用的逐步方法,Sonnet 4.6 与 Opus 4.7 在针对影响力行动场景的测试中分别有 90% 和 94% 的时间作出恰当回应。 Anthropic 还测试了其模型是否能够在没有人工提示的情况下自主开展影响力行动——即从策划到执行的整套多步骤竞选过程,全程由系统独立完成。该公司表示,在设置了安全防护措施的前提下,其最新模型几乎拒绝了每一项任务。

在政治中立性这一问题上,该公司在每次模型上线之前都会进行评估,以衡量 Claude 对包含来自政治光谱各方观点的提示时,其回应的稳定性与公正性。Opus 4.7 与 Sonnet 4.6 的得分分别为 95% 和 96%。 对于寻求投票信息的用户,Claude 将展示一则选举横幅,将他们引导至 TurboVote——由 Democracy Works 提供的非党派资源。该资源可提供关于选民登记、投票地点、选举日期以及选票细节的可靠、实时信息。今年晚些时候,还计划为巴西的选举推出类似的横幅。 Anthropic 表示,随着选举周期的推进,他们计划继续监测系统并完善防御措施。Decrypt 就这些发现向 Anthropic 征求评论,但目前尚未立即收到回复。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论