除了流入人工智能的资本流之外,还存在一长串大部分未解决的实际障碍。其中包括递归污染数据。大型语言模型生成大量内容,然后用作下一代模型的训练材料。错误和幻觉在每个周期中都在增强。这就像多次复制的复制品:质量不断下降,最终无法确定原始来源。行业已经开始使用合成数据来弥补优质人工内容的不足——但这可能会加速退化,而不是消除它。更严重的问题是数据中毒。恶意者可以故意篡改训练集,一旦植入“毒药”,它就会永远留在模型中。尤其是在军事场景中:训练识别自己和敌人的人工智能,基于被破坏的数据,只有在真正的冲突爆发时才会发现隐藏的漏洞。已有记录表明,向任何规模的语言模型投毒只需250个有害文件——这使得对训练数据的攻击不再是假设性威胁,而是成为网络安全的一个切实问题。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论