Mira: AI输出验证的未来

中级1/17/2025, 7:54:16 AM
近年来,生成式人工智能的快速发展对基础设施和工作流程提出了新的要求,特别是在验证和评估方面。 Mira正在构建一个创新的第1层网络,为AI输出提供无需信任、可扩展且准确的验证。通过将复杂的AI输出分解为更小的可验证部分,并利用多个AI模型进行验证,Mira显著降低了错误率和幻觉。该平台已为多个拥有20万以上用户的AI应用提供验证服务。随着生成式AI市场预计在2030年突破1万亿美元,Mira致力于成为所有AI应用的可信任验证层,通过去中心化方式解决AI输出可靠性这一关键挑战。

转发原文标题:《Mira:无需信任的验证人工智能》

长话短说

  • 输出验证对于确保人工智能可靠运行至关重要。
  • Mira 正在构建一个第 1 层网络,为 AI 输出提供无需信任、可扩展且准确的验证。
  • 同时减少幻觉和偏见是一种微妙的平衡行为。 Mira 通过利用人工智能模型的集体智慧来做到这一点。
  • Mira 的验证系统建立在两个基本设计原则之上:(1) 将人工智能输出分解为更小的、易于验证的部分,以及 (2) 使用模型集合来验证每个部分。
  • Mira 的初始市场规模与 LLMOps 相关,但其总体潜在市场可能会扩展到所有人工智能,因为每个人工智能应用程序都需要更可靠的输出。
  • Mira 已经为多个拥有 20 万以上用户的 AI 应用程序提供 AI 验证。
  • 米拉的最终目标是成为 合成基础模型,无缝插入每个主要提供商,通过单个 API 提供预先验证的输出。

幻觉: 一种对不存在的事物产生明显感知的体验

安德烈·卡帕蒂 (Andrej Karpathy) 将人工智能称为“梦想机器”。他认为幻觉——人工智能自信地生成不真实事物的那些时刻——是一种特征,而不是一个错误。试图完全消除它们是徒劳的。老实说,这有一些诗意。

大型语言模型(LLM)是一位艺术家,一位创造者。它用代码做梦,凭空产生想法,并从数据中解读意义。但为了让人工智能从美好的白日梦转向实际的日常应用,我们必须控制这些幻觉。

LLM 在许多任务中的错误率仍然很高,通常徘徊在 30% 左右。在这个水平上,LLM 仍然需要人工参与才能达到可用的准确性标准。

但是,当我们达到难以捉摸的 99.x% 准确率(即输出在没有人为监督的情况下可靠)时,奇迹就会发生。这是人工智能实现人类水平可靠性的门槛,解锁了以前无法实现的无穷无尽的用例。

然而,达到这种精度水平并非易事。它需要不懈的工程努力和创新。

@Mira_Network 的故事从这里开始。但在我们深入探讨之前,让我们花点时间讨论一下 LLM 的发展,以及为什么验证正在成为人工智能领域的下一个重大事件。

LLM 是如何诞生的

LLM 开发是深度学习之旅的最新迭代,与我们过去 50 多年磨练的传统软件开发实践不同。LLM 只存在了大约三年,完全翻转了剧本,从 确定性思维 (如果 X,则 Y) 转为概率推理 (如果 X,那么……也许是 Y?)。

这意味着人工智能驱动的世界的基础设施需要一套全新的工具和工作流程。然而,其中许多工具仍然被锁在创建 LLM 的研究实验室内。

好消息是,这些工具开始逐渐进入公共领域,为世界各地的开发人员打开了一个充满可能性的世界。

在这个新工作流程的最后,存在着一个关键的难题: 评估和验证。 今天,我们的焦点集中在这些方面。他们回答了一个基本问题: 人工智能运行良好吗?

验证=信任

信任是任何伟大人工智能产品的基础。

随着人工智能日益成为我们生活中不可或缺的一部分,该技术本身仍然脆弱。错误总会发生,当错误发生时,信任就会迅速消失。用户期望人工智能准确、公正且真正有帮助,但如果没有可靠的系统来确保这一点,他们的挫败感就会增加,而挫败感会导致客户流失。

这就是验证发挥作用的地方。

验证起到保障作用。它们是开发人员赖以完善输出和构建用户可以信任的系统的质量保证层。

Mira 正在通过加密技术的去信任透明性来解决 Web2 的核心问题。通过利用去中心化的验证节点网络,Mira 确保人工智能输出得到准确、独立的验证。

进入 Mira

假设您有一段关于巴黎市的 LLM 的输出。你如何验证它是否准确?这样做很难,因为从主张到内容结构再到写作风格,一切都存在很多细微差别。

这就是 Mira 介入的地方。

Mira 的愿景非常大胆:创建一个可提供以下功能的第 1 层网络: 人工智能输出的无需信任、可扩展且准确的验证。通过利用集体智慧,Mira 减少偏见和幻觉,解决公平和成本等核心问题,同时证明区块链如何真正增强人工智能。

来源:Mira

早期结果令人鼓舞。在最近的发表在 Arxiv 上的研究 Mira 证明,使用多个模型生成输出并达成共识可显著提高准确率。使用 三个模型时,准确率达到95.6% ,而单个模型输出的准确率仅为73.1% 。

Mira 的方法有两个关键设计元素:

  • 内容的分片和二值化:将复杂的人工智能输出分解为更小的、可独立验证的部分。
  • 型号多样性: 利用多个模型来增强可靠性并最大限度地减少偏差。

#1:通过二值化和分片进行内容转换

由于内容生成成本接近于零,人工智能生成的输出范围从简单的陈述到庞大的论文。但这种丰富的复杂性带来了一个挑战:如何确保如此多样化的输出的准确性?

Mira 的解决方案很简单: 分解它。

@Mira_Network 将复杂的人工智能生成的内容转换为更小的、易于理解的片段,人工智能模型可以在称为分片的过程中客观地审查这些片段。

通过标准化输出并将其分解为离散的、可验证的声明,Mira 确保每个部分都可以得到一致的评估,从而消除经常困扰评估的模糊性。

例如,考虑这个复合语句:

“植物中发生光合作用,将阳光转化为能量,而蜜蜂通过在花朵之间转移花粉,在授粉中发挥着关键作用。”

表面上看,验证起来似乎很简单。但当交给多个模型时,解释怪癖可能会导致不同的答案。 Mira 通过分片进行内容转换,通过将声明分成两个独立的声明来解决这个问题:

  1. “植物中发生光合作用,将阳光转化为能量。”
  2. “蜜蜂通过在花朵之间传递花粉,在授粉中发挥着关键作用。”

一旦分片,每个主张都会经过二值化,转换为多项选择题。这些问题被分发到运行人工智能模型的节点网络。使用 Mira 的整体验证方法,模型可以协作评估并确认每个声明的有效性。

目前,Mira 的内容分片和二值化功能主要集中在文本输入上。到 2025 年初,这些流程将扩展为支持多模式输入,例如图像和视频

#2:集体行动,而非个人行动

Mira 开发了一种先进的验证系统,结合了多种人工智能模型的优势来评估人工智能输出的质量。

让我们来解开它。

传统的自动化评估通常依赖于单一大型语言模型 (LLM)(例如 GPT-4)作为质量的最终仲裁者。虽然有效,但这种方法存在重大缺陷:成本高昂、容易产生偏差,并且受到模型固有的怪癖和“个性”的限制。

Mira 的突破是从依赖单一大型模型转变为利用 不同 LLM 的集合。 该整体在事实准确性比创意天赋更重要的任务中表现出色,可降低错误率并提供更可靠、一致的验证。

集成技术已经在分类等机器学习任务中得到了充分研究,Mira 现在正在对其进行验证。

Mira 系统的核心是 LLM 验证者小组 (PoLL)——一个模型协作网络,共同验证输出。将其视为一个多元化的专家小组对决定进行权衡,而不是将其交给单一的、可能存在偏见的法官。

这不仅仅是一厢情愿——它是有研究基础的。看看下面的图表:

Cohere 研究发布2024 年 4 月,一项研究证明,由三个较小模型(GPT-3.5、Claude-3 Haiku 和 Command R)组成的面板比单独的 GPT-4 更接近人类判断。值得注意的是,这种集成方法的成本也降低了 7 倍。

Mira 现在正在将这项研究付诸实践,大规模部署其集成验证方法。迄今为止,他们分享的内部结果令人信服:

• 错误率从 80% 降低至 5% 用于复杂的推理任务。

• 速度和成本提高 5 倍 与人工验证相比。

这是一个不小的壮举。通过采用共识机制,Mira 的多样化模型集合有效地过滤了幻觉并平衡了个体模型的偏差。它们共同提供的东西大于其各部分之和:更快、更便宜且更符合我们需求的验证。

它是如何运作的——搭建设计

回顾一下,Mira 的验证系统建立在两个基本设计原则之上:

  • 将人工智能输出分解为更小的、易于验证的部分。
  • 使用不同的人工智能模型集合来验证每一件作品。

维护多样化的模型对于高质量输出至关重要,这使得 Mira 的设计非常适合去中心化架构。消除单点故障对于任何验证产品都至关重要。

Mira 使用基于区块链的方法来确保没有任何一个实体可以操纵结果。前提很简单:人工智能生成的输出应该像区块链状态变化一样得到验证。

验证通过独立节点网络进行,运营商在经济上受到激励来执行准确的验证。通过将奖励与诚实相结合,Mira 的系统可以阻止不良行为者并确保可靠的结果。

它的工作原理如下:

  1. AI 开发人员创建模型输出数据集,并通过 API 将其提交给 Mira。
  2. Mira 将数据集转换为多项选择题(二值化),并将其分割成更小的、可管理的部分(分片)。
  3. 这些分片被分发到 Mira 的验证者节点网络。每个节点都会收到不同的分片进行验证。
  4. 每个节点独立审查其分配分片中的问题并将其结果提交回网络。
  5. 分配到同一分片的节点对验证结果达成共识,然后汇总到最终评估中。
  6. 最终验证结果连同验证证书(评估的加密证明)一起返回给人工智能开发人员。该证书存储在区块链上,创建可验证、防篡改的验证记录。

Mira 通过将输入数据分成更小的部分来确保数据机密性,确保没有单个节点无法访问完整的数据集。

为了提高安全性,Mira 支持动态隐私级别,允许用户根据数据敏感性调整分片数量。虽然更高的隐私级别需要更多的分片(因此成本更高),但它们为处理敏感信息的用户提供了更高的机密性。

节点执行的每次验证都会记录在区块链上,从而创建验证过程的透明且可审计的记录。这种不可变的分类账确保了传统的非区块链方法无法实现的信任和责任。

这为安全、公正的人工智能验证设立了新标准。

确保节点完成其工作

在 Mira 的去中心化网络中,诚实的工作会得到奖励。

专家可以通过节点软件部署专门的人工智能模型,并获得准确验证的代币。反过来,人工智能开发人员为每次验证支付费用,在需求和供应之间创建了一个自我维持的经济循环。

这种方法将 Web2 工作流程的真正价值连接到 Web3 生态系统,直接奖励推理提供者和模型创建者等参与者。

但激励措施也伴随着挑战。在任何去中心化系统中,不良行为者都会尝试利用网络,提交虚假结果以在不做任何工作的情况下获得奖励。

那么,我们如何确保节点实际上准确且诚实地执行其任务?

为了保持诚信,Mira 采用了 验证证明机制 —— 一种受比特币工作量证明启发但专为人工智能设计的机制。节点必须证明自己已经完成了验证任务才能参与共识过程,而不是挖掘区块。

它的工作原理如下:

  • 质押要求: 每个节点都必须抵押代币作为经济承诺。如果一个节点重复提交不正确的结果,其部分权益将被削减作为惩罚。这确保节点有参与其中的必要,并有理由诚实行事。
  • 虚假工作的处罚: 提交虚假结果(例如跳过计算或生成随机输出)的节点将面临处罚。当他们的结果始终显着偏离共识时(假设大多数节点是诚实的),就会检测到欺诈。

验证证明创建了一个平衡的系统,在该系统中节点在经济上受到激励来执行高质量的验证。这种机制确保网络随着时间的推移保持安全可靠。

挑战与权衡

问题在于: 如果 Mira 的方法如此有效,为什么不是每个人都这样做呢?

答案在于在现实世界中实施这样一个系统的权衡和复杂性。在快速、准确的评估和管理多个模型的复杂性之间实现完美平衡绝非易事。

Mira 最大的障碍之一是 延迟。 虽然使用模型集合可以并行运行验证,但同步结果和达成共识会带来延迟。该过程的速度取决于最慢的节点。

目前,这使得 Mira 成为人工智能输出批量处理的理想选择——不需要实时结果的用例。随着网络随着更多的节点和计算可用性而增长,长期目标是实现实时验证,将 Mira 的适用性扩展到更广泛的场景。

除了延迟之外,其他挑战还包括:

工程复杂性: 跨多个模型协调评估并确保共识机制顺利运行需要大量的工程工作。

更高的计算要求: 即使使用较小的模型,在集成中一起运行它们也会增加计算需求。

良好的共识机制设计: 通过多数投票、加权评分或其他方法达成共识的方式对系统的可靠性起着至关重要的作用。在不明确的情况下,集成可能难以协调,从而导致结果不一致。

Mira 的应用程序和用例

来源:Mira

Mira 的 API 可以轻松地与任何应用程序集成,类似于 OpenAI 的 GPT-4o。它与消费者和 B2B 应用程序无关,使其成为适用于各种用例的多功能解决方案。如今,有十多个应用程序使用 Mira 的基础设施。

消费者整合

在消费者方面,Mira 已经为多个早期人工智能应用程序提供人工智能验证:

  • Creato:一款用于个性化每日报价和状态消息的发现和共享应用程序,为超过 12 万用户提供服务。
  • Astro247:用户与人工智能占星师聊天以获取个性化星座运势和预测的平台。
  • Amor:一款人工智能伴侣应用程序,允许用户与幻想人工智能角色进行沉浸式对话。
  • Klok:Mira 推出的专注于加密货币的 ChatGPT,它使用 CoinMarketCap 等 API 以及从加密网站和新闻媒体收集的网络数据来回答加密查询。

Delphi Oracle 是最新的,也许是最先进的集成。这位人工智能驱动的研究助理允许 @Delphi_Digital 会员可以直接参与研究内容、提出问题、澄清观点、整合价格信息,并将内容调整到不同的复杂程度。

Delphi Oracle 利用 Mira Network 的验证技术来提供可靠且准确的响应。通过验证多个模型的响应,Mira 将幻觉率从约 30% 降低到 5% 以下,确保了坚实的信任基础。

Delphi Oracle 的核心是 高性能查询路由器

  • 价格查询:直接路由到市场数据端点以获得近乎即时的响应。
  • 基本问题:由缓存响应系统处理,平衡速度和成本效益。
  • 复杂查询:针对专门的 LLM 处理流程,能够综合多个来源的信息。

这种智能路由系统与智能缓存相结合,通过平衡延迟、成本和质量来确保最佳性能。

Mira 的测试表明,较小的、具有成本效益的模型几乎可以像较大的模型一样处理大多数查询。这使得运营成本降低了 90%,同时保持了用户期望的高质量响应。

尽管其中许多消费者应用程序仍处于早期阶段,但它们凸显了 Mira 无缝集成和支持大型活跃用户群的能力。不难想象,只要开发者体验保持简单且价值主张保持清晰,就会有数千个应用程序插入 Mira 的生态系统。

B2B 应用

在 B2B 方面,Mira 专注于信任和精确性至关重要的行业的专业集成,最初的重点是医疗保健和教育。

主要应用包括:

  • 卫生保健:人工智能助手提供可靠的第二意见并支持医生做出关键决策。
  • 教育:个性化学习助手,可适应个别学生的需求,同时保持事实准确性并与课程保持一致。
  • 法律服务:能够准确总结判例法并预测法律结果以简化法律工作流程的系统。

Miran 的终局

Mira 的最终目标是提供本地验证的生成——用户只需通过 API 连接,就像 OpenAI 或 Anthropic 一样,并在返回之前接收预先验证的输出。

他们的目标是通过提供现有模型的高度可靠版本(例如 Mira-Claude-3.5-Sonnet 或 Mira-OpenAI-GPT-4o)来取代现有模型 API,并通过内置的、基于共识的可靠性进行增强。

市场规模

生成式人工智能正在飞速发展。根据彭博,市场预计将以惊人的42% 复合年增长率增长,到 2030 年收入将超过1 万亿美元。在这股巨大的浪潮中,提高 AI 工作流程速度、准确性和可靠性的工具将占据重要地位。

随着越来越多的企业将 LLM 集成到他们的工作流程中(从客户支持聊天机器人到复杂的研究助理),对强大模型验证的需求变得更加紧迫。

组织将寻求能够(1)测量模型准确性和可靠性,(2)诊断提示和参数效率低下,(3)持续监控性能和漂移,以及(4)确保遵守围绕人工智能安全的新兴监管框架的工具。

听起来很熟悉吗?这是我们之前见过的 MLOps(“机器学习操作”的缩写)的剧本。随着机器学习在 2010 年代规模化,部署、跟踪和维护模型的工具变得至关重要,创造了一个价值数十亿美元的市场。随着生成式人工智能的兴起, LLMOps 正在遵循相同的轨迹。

即使占据万亿美元市场的一小部分,也可能会在 2030 年将该子行业推至 100B+ 美元。

几家 Web2 初创公司已经做好了自己的定位,提供注释数据、微调模型和评估性能的工具:

• Braintrust(筹集 3600 万美元)

• Vellum AI(筹集 500 万美元)

• Humanloop(筹集 280 万美元)

这些先行者正在奠定基础,但这个领域瞬息万变。到 2025 年,我们可能会看到该领域的初创企业激增。有些公司可能专注于小众评估指标(例如偏差检测和稳健性测试),而另一些公司则扩大其产品范围,覆盖整个 AI 开发生命周期。

大型科技公司(如主要云提供商和 AI 平台)可能会将评估功能捆绑到其产品中。上个月,OpenAI在其平台上直接引入了评估。为了保持竞争力,初创公司必须通过专业化、易用性和高级分析来脱颖而出。

Mira 并不是这些初创公司或现有企业的直接竞争对手。相反,它是一个基础设施提供商,通过 API 与两者无缝集成。关键是什么?它必须有效。

Mira 的初始市场规模与 LLMOps 相关,但其 总的潜在市场将扩展到所有人工智能领域 因为每个人工智能应用都需要更可靠的输出。

从博弈论的角度来看,Mira 处于一个独特的境地。与 OpenAI 等其他模型提供商不同,Mira 可以跨模型集成。这使得 Mira 成为人工智能的信任层,提供任何单一提供商都无法比拟的可靠性。

2025 年路线图

Mira 的 2025 年路线图旨在在完全去中心化的道路上平衡完整性、可扩展性和社区参与:

第一阶段:引导信任(我们现在所处的位置)

在早期阶段,经过审查的节点运营商确保网络可靠性。知名GPU计算提供商作为第一波运营商,处理初始运营并为增长奠定坚实的基础。

第二阶段:渐进式去中心化

Mira 引入了设计重复,其中同一验证者模型的多个实例处理每个请求。虽然这会增加验证成本,但对于识别和消除恶意操作者至关重要。通过比较节点之间的输出,可以尽早发现不良行为者。

在成熟的形式下,Mira 将实施 随机分片 分配验证任务。这使得共谋在经济上不可行,并随着网络规模的扩大增强了网络的弹性和安全性。

第三阶段:合成基础模型

Mira 将在这里提供经过本地验证的世代。用户将通过类似于 OpenAI 或 Anthropic 的 API 进行连接,并接收预先验证的输出——可靠、随时可用的结果,无需额外验证。

在接下来的几个月中,Mira 正在为实现几个重大里程碑做准备:

  • 推出人工智能工作流程产品 Mira Flows,允许开发人员快速构建 API 驱动的人工智能应用程序
  • 一月份的公共测试网。
  • 代币发行也即将推出,目标是 2024 年第一季度。

🌈 节点委托者计划

Mira 正在通过其 节点委托者计划。这一举措使每个人都可以支持网络——无需技术专业知识。

该过程很简单:您可以租用计算资源并将其委托给一组精心策划的节点运营商。捐款范围从 35 美元到 750 美元不等,并为支持网络提供奖励。 Mira 管理所有复杂的基础设施,因此节点委托者可以坐下来观察网络的发展并捕捉一些优势。

团队

如今,Mira 拥有一支小而紧凑的团队,主要以工程为主。

联合创始人有3名:

  1. @karansirdesai(首席执行官),曾在 Accel 的加密货币和人工智能投资团队工作,并在 BCG 担任咨询顾问
  2. Sid Doddipalli (CTO) 是 IIT Madras 的校友,之前是 Stader Labs 的联合创始人,Stader Labs 是以太坊上的流动质押平台,TVL 超过 4 亿美元
  3. Ninad Naik (首席产品官)曾担任 Uber 产品管理总监和亚马逊智能家居部门总经理等领导职务。

他们将投资智慧、技术创新和产品领导力结合在一起,实现了 Mira 去中心化人工智能验证的愿景。 Mira 筹集了 900 万美元 种子轮 2024 年 7 月,由 BITKRAFT 和 Framework Ventures 牵头。

我们的想法

看到加密人工智能团队解决基本的 Web2 人工智能问题(让人工智能变得更好)而不是在加密泡沫中玩投机游戏,这令人耳目一新。

  • 验证将成为 2025 年的人工智能流行词

业界正在意识到验证的重要性。仅仅依靠“直觉”已经不够了。每个人工智能应用程序和工作流程很快都需要适当的验证流程,并且不难想象未来的法规会强制执行这些流程以确保安全。

Mira 的方法利用多个模型来独立验证输出,避免依赖单个集中式模型。这种去中心化的框架增强了信任并降低了偏见和操纵的风险。

让我们考虑一下如果我们在未来几年内实现 AGI/通用人工智能(确实有可能)会发生什么。

如Canonical Anand Iyer (@AI 指出,如果人工智能可以巧妙地操纵决策和代码,我们如何信任测试这些行为的系统?聪明人都会提前思考。Anthropic的研究 强调了紧迫性,强调评估是在潜在危险的人工智能能力升级为问题之前识别它们的关键工具。

通过实现彻底的透明度,区块链为防范恶意人工智能系统增加了一层强大的保护。无需信任的共识机制确保安全评估得到数千个独立节点的验证(如 Mira 上的验证),从而大大降低了 Sybil 攻击的风险。

  • 雄心勃勃的愿景与执行风险

Mira 正在追逐一个巨大的市场,该市场对有效的解决方案有明确的需求。但挑战是真实存在的。提高延迟、精度和成本效率需要不懈的工程努力和时间。团队需要不断地证明他们的方法明显优于现有的替代方法。

核心创新在于Mira的二值化和分片过程。这种“秘密武器”有望解决可扩展性和信任挑战。为了使 Mira 取得成功,这项技术需要兑现其承诺。

  • 代币设计和 Mira 的秘密武器

在任何去中心化网络中,代币和激励设计都是成败因素。 Mira 的成功将取决于这些机制在保持网络完整性的同时如何协调参与者的利益。

虽然 Mira 代币经济学的细节仍处于保密状态,但我预计团队将在 2025 年初代币发行临近时透露更多信息。

光明的未来

“我们发现,实施出色评估的工程团队的行动速度明显快于那些只是观察生产中发生的情况并尝试临时修复问题的团队,速度快了 10 倍,”- Ankur Goyal,Braintrust

在人工智能驱动的世界中,信任就是一切。

随着模型变得越来越复杂,可靠的验证将支撑每一个伟大的人工智能产品。它们帮助我们解决幻觉、消除偏见并确保人工智能输出符合用户的实际需求。

Mira 可以实现验证自动化,降低成本并减少对人工干预的依赖。这可以实现更快的迭代、实时调整和无瓶颈的可扩展解决方案。

最终,Mira 的目标是成为信任的 API——一个去中心化的验证框架,每个人工智能开发人员和应用程序都可以依赖它来获得经过验证的答案。

它大胆、雄心勃勃,正是人工智能世界所需要的。

感谢您的阅读,滕岩

免责声明:

  1. 本文转载自【Teng Yan】,转发原文标题:《Mira:无需信任的验证人工智能》。所有版权归原作者所有【Teng Yan】。若对本次转载有异议,请联系 Gate Learn 团队,他们会及时处理。
  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。
  3. Gate Learn 团队将文章翻译成其他语言。除非另有说明,否则禁止复制、分发或抄袭翻译文章。

Mira: AI输出验证的未来

中级1/17/2025, 7:54:16 AM
近年来,生成式人工智能的快速发展对基础设施和工作流程提出了新的要求,特别是在验证和评估方面。 Mira正在构建一个创新的第1层网络,为AI输出提供无需信任、可扩展且准确的验证。通过将复杂的AI输出分解为更小的可验证部分,并利用多个AI模型进行验证,Mira显著降低了错误率和幻觉。该平台已为多个拥有20万以上用户的AI应用提供验证服务。随着生成式AI市场预计在2030年突破1万亿美元,Mira致力于成为所有AI应用的可信任验证层,通过去中心化方式解决AI输出可靠性这一关键挑战。

转发原文标题:《Mira:无需信任的验证人工智能》

长话短说

  • 输出验证对于确保人工智能可靠运行至关重要。
  • Mira 正在构建一个第 1 层网络,为 AI 输出提供无需信任、可扩展且准确的验证。
  • 同时减少幻觉和偏见是一种微妙的平衡行为。 Mira 通过利用人工智能模型的集体智慧来做到这一点。
  • Mira 的验证系统建立在两个基本设计原则之上:(1) 将人工智能输出分解为更小的、易于验证的部分,以及 (2) 使用模型集合来验证每个部分。
  • Mira 的初始市场规模与 LLMOps 相关,但其总体潜在市场可能会扩展到所有人工智能,因为每个人工智能应用程序都需要更可靠的输出。
  • Mira 已经为多个拥有 20 万以上用户的 AI 应用程序提供 AI 验证。
  • 米拉的最终目标是成为 合成基础模型,无缝插入每个主要提供商,通过单个 API 提供预先验证的输出。

幻觉: 一种对不存在的事物产生明显感知的体验

安德烈·卡帕蒂 (Andrej Karpathy) 将人工智能称为“梦想机器”。他认为幻觉——人工智能自信地生成不真实事物的那些时刻——是一种特征,而不是一个错误。试图完全消除它们是徒劳的。老实说,这有一些诗意。

大型语言模型(LLM)是一位艺术家,一位创造者。它用代码做梦,凭空产生想法,并从数据中解读意义。但为了让人工智能从美好的白日梦转向实际的日常应用,我们必须控制这些幻觉。

LLM 在许多任务中的错误率仍然很高,通常徘徊在 30% 左右。在这个水平上,LLM 仍然需要人工参与才能达到可用的准确性标准。

但是,当我们达到难以捉摸的 99.x% 准确率(即输出在没有人为监督的情况下可靠)时,奇迹就会发生。这是人工智能实现人类水平可靠性的门槛,解锁了以前无法实现的无穷无尽的用例。

然而,达到这种精度水平并非易事。它需要不懈的工程努力和创新。

@Mira_Network 的故事从这里开始。但在我们深入探讨之前,让我们花点时间讨论一下 LLM 的发展,以及为什么验证正在成为人工智能领域的下一个重大事件。

LLM 是如何诞生的

LLM 开发是深度学习之旅的最新迭代,与我们过去 50 多年磨练的传统软件开发实践不同。LLM 只存在了大约三年,完全翻转了剧本,从 确定性思维 (如果 X,则 Y) 转为概率推理 (如果 X,那么……也许是 Y?)。

这意味着人工智能驱动的世界的基础设施需要一套全新的工具和工作流程。然而,其中许多工具仍然被锁在创建 LLM 的研究实验室内。

好消息是,这些工具开始逐渐进入公共领域,为世界各地的开发人员打开了一个充满可能性的世界。

在这个新工作流程的最后,存在着一个关键的难题: 评估和验证。 今天,我们的焦点集中在这些方面。他们回答了一个基本问题: 人工智能运行良好吗?

验证=信任

信任是任何伟大人工智能产品的基础。

随着人工智能日益成为我们生活中不可或缺的一部分,该技术本身仍然脆弱。错误总会发生,当错误发生时,信任就会迅速消失。用户期望人工智能准确、公正且真正有帮助,但如果没有可靠的系统来确保这一点,他们的挫败感就会增加,而挫败感会导致客户流失。

这就是验证发挥作用的地方。

验证起到保障作用。它们是开发人员赖以完善输出和构建用户可以信任的系统的质量保证层。

Mira 正在通过加密技术的去信任透明性来解决 Web2 的核心问题。通过利用去中心化的验证节点网络,Mira 确保人工智能输出得到准确、独立的验证。

进入 Mira

假设您有一段关于巴黎市的 LLM 的输出。你如何验证它是否准确?这样做很难,因为从主张到内容结构再到写作风格,一切都存在很多细微差别。

这就是 Mira 介入的地方。

Mira 的愿景非常大胆:创建一个可提供以下功能的第 1 层网络: 人工智能输出的无需信任、可扩展且准确的验证。通过利用集体智慧,Mira 减少偏见和幻觉,解决公平和成本等核心问题,同时证明区块链如何真正增强人工智能。

来源:Mira

早期结果令人鼓舞。在最近的发表在 Arxiv 上的研究 Mira 证明,使用多个模型生成输出并达成共识可显著提高准确率。使用 三个模型时,准确率达到95.6% ,而单个模型输出的准确率仅为73.1% 。

Mira 的方法有两个关键设计元素:

  • 内容的分片和二值化:将复杂的人工智能输出分解为更小的、可独立验证的部分。
  • 型号多样性: 利用多个模型来增强可靠性并最大限度地减少偏差。

#1:通过二值化和分片进行内容转换

由于内容生成成本接近于零,人工智能生成的输出范围从简单的陈述到庞大的论文。但这种丰富的复杂性带来了一个挑战:如何确保如此多样化的输出的准确性?

Mira 的解决方案很简单: 分解它。

@Mira_Network 将复杂的人工智能生成的内容转换为更小的、易于理解的片段,人工智能模型可以在称为分片的过程中客观地审查这些片段。

通过标准化输出并将其分解为离散的、可验证的声明,Mira 确保每个部分都可以得到一致的评估,从而消除经常困扰评估的模糊性。

例如,考虑这个复合语句:

“植物中发生光合作用,将阳光转化为能量,而蜜蜂通过在花朵之间转移花粉,在授粉中发挥着关键作用。”

表面上看,验证起来似乎很简单。但当交给多个模型时,解释怪癖可能会导致不同的答案。 Mira 通过分片进行内容转换,通过将声明分成两个独立的声明来解决这个问题:

  1. “植物中发生光合作用,将阳光转化为能量。”
  2. “蜜蜂通过在花朵之间传递花粉,在授粉中发挥着关键作用。”

一旦分片,每个主张都会经过二值化,转换为多项选择题。这些问题被分发到运行人工智能模型的节点网络。使用 Mira 的整体验证方法,模型可以协作评估并确认每个声明的有效性。

目前,Mira 的内容分片和二值化功能主要集中在文本输入上。到 2025 年初,这些流程将扩展为支持多模式输入,例如图像和视频

#2:集体行动,而非个人行动

Mira 开发了一种先进的验证系统,结合了多种人工智能模型的优势来评估人工智能输出的质量。

让我们来解开它。

传统的自动化评估通常依赖于单一大型语言模型 (LLM)(例如 GPT-4)作为质量的最终仲裁者。虽然有效,但这种方法存在重大缺陷:成本高昂、容易产生偏差,并且受到模型固有的怪癖和“个性”的限制。

Mira 的突破是从依赖单一大型模型转变为利用 不同 LLM 的集合。 该整体在事实准确性比创意天赋更重要的任务中表现出色,可降低错误率并提供更可靠、一致的验证。

集成技术已经在分类等机器学习任务中得到了充分研究,Mira 现在正在对其进行验证。

Mira 系统的核心是 LLM 验证者小组 (PoLL)——一个模型协作网络,共同验证输出。将其视为一个多元化的专家小组对决定进行权衡,而不是将其交给单一的、可能存在偏见的法官。

这不仅仅是一厢情愿——它是有研究基础的。看看下面的图表:

Cohere 研究发布2024 年 4 月,一项研究证明,由三个较小模型(GPT-3.5、Claude-3 Haiku 和 Command R)组成的面板比单独的 GPT-4 更接近人类判断。值得注意的是,这种集成方法的成本也降低了 7 倍。

Mira 现在正在将这项研究付诸实践,大规模部署其集成验证方法。迄今为止,他们分享的内部结果令人信服:

• 错误率从 80% 降低至 5% 用于复杂的推理任务。

• 速度和成本提高 5 倍 与人工验证相比。

这是一个不小的壮举。通过采用共识机制,Mira 的多样化模型集合有效地过滤了幻觉并平衡了个体模型的偏差。它们共同提供的东西大于其各部分之和:更快、更便宜且更符合我们需求的验证。

它是如何运作的——搭建设计

回顾一下,Mira 的验证系统建立在两个基本设计原则之上:

  • 将人工智能输出分解为更小的、易于验证的部分。
  • 使用不同的人工智能模型集合来验证每一件作品。

维护多样化的模型对于高质量输出至关重要,这使得 Mira 的设计非常适合去中心化架构。消除单点故障对于任何验证产品都至关重要。

Mira 使用基于区块链的方法来确保没有任何一个实体可以操纵结果。前提很简单:人工智能生成的输出应该像区块链状态变化一样得到验证。

验证通过独立节点网络进行,运营商在经济上受到激励来执行准确的验证。通过将奖励与诚实相结合,Mira 的系统可以阻止不良行为者并确保可靠的结果。

它的工作原理如下:

  1. AI 开发人员创建模型输出数据集,并通过 API 将其提交给 Mira。
  2. Mira 将数据集转换为多项选择题(二值化),并将其分割成更小的、可管理的部分(分片)。
  3. 这些分片被分发到 Mira 的验证者节点网络。每个节点都会收到不同的分片进行验证。
  4. 每个节点独立审查其分配分片中的问题并将其结果提交回网络。
  5. 分配到同一分片的节点对验证结果达成共识,然后汇总到最终评估中。
  6. 最终验证结果连同验证证书(评估的加密证明)一起返回给人工智能开发人员。该证书存储在区块链上,创建可验证、防篡改的验证记录。

Mira 通过将输入数据分成更小的部分来确保数据机密性,确保没有单个节点无法访问完整的数据集。

为了提高安全性,Mira 支持动态隐私级别,允许用户根据数据敏感性调整分片数量。虽然更高的隐私级别需要更多的分片(因此成本更高),但它们为处理敏感信息的用户提供了更高的机密性。

节点执行的每次验证都会记录在区块链上,从而创建验证过程的透明且可审计的记录。这种不可变的分类账确保了传统的非区块链方法无法实现的信任和责任。

这为安全、公正的人工智能验证设立了新标准。

确保节点完成其工作

在 Mira 的去中心化网络中,诚实的工作会得到奖励。

专家可以通过节点软件部署专门的人工智能模型,并获得准确验证的代币。反过来,人工智能开发人员为每次验证支付费用,在需求和供应之间创建了一个自我维持的经济循环。

这种方法将 Web2 工作流程的真正价值连接到 Web3 生态系统,直接奖励推理提供者和模型创建者等参与者。

但激励措施也伴随着挑战。在任何去中心化系统中,不良行为者都会尝试利用网络,提交虚假结果以在不做任何工作的情况下获得奖励。

那么,我们如何确保节点实际上准确且诚实地执行其任务?

为了保持诚信,Mira 采用了 验证证明机制 —— 一种受比特币工作量证明启发但专为人工智能设计的机制。节点必须证明自己已经完成了验证任务才能参与共识过程,而不是挖掘区块。

它的工作原理如下:

  • 质押要求: 每个节点都必须抵押代币作为经济承诺。如果一个节点重复提交不正确的结果,其部分权益将被削减作为惩罚。这确保节点有参与其中的必要,并有理由诚实行事。
  • 虚假工作的处罚: 提交虚假结果(例如跳过计算或生成随机输出)的节点将面临处罚。当他们的结果始终显着偏离共识时(假设大多数节点是诚实的),就会检测到欺诈。

验证证明创建了一个平衡的系统,在该系统中节点在经济上受到激励来执行高质量的验证。这种机制确保网络随着时间的推移保持安全可靠。

挑战与权衡

问题在于: 如果 Mira 的方法如此有效,为什么不是每个人都这样做呢?

答案在于在现实世界中实施这样一个系统的权衡和复杂性。在快速、准确的评估和管理多个模型的复杂性之间实现完美平衡绝非易事。

Mira 最大的障碍之一是 延迟。 虽然使用模型集合可以并行运行验证,但同步结果和达成共识会带来延迟。该过程的速度取决于最慢的节点。

目前,这使得 Mira 成为人工智能输出批量处理的理想选择——不需要实时结果的用例。随着网络随着更多的节点和计算可用性而增长,长期目标是实现实时验证,将 Mira 的适用性扩展到更广泛的场景。

除了延迟之外,其他挑战还包括:

工程复杂性: 跨多个模型协调评估并确保共识机制顺利运行需要大量的工程工作。

更高的计算要求: 即使使用较小的模型,在集成中一起运行它们也会增加计算需求。

良好的共识机制设计: 通过多数投票、加权评分或其他方法达成共识的方式对系统的可靠性起着至关重要的作用。在不明确的情况下,集成可能难以协调,从而导致结果不一致。

Mira 的应用程序和用例

来源:Mira

Mira 的 API 可以轻松地与任何应用程序集成,类似于 OpenAI 的 GPT-4o。它与消费者和 B2B 应用程序无关,使其成为适用于各种用例的多功能解决方案。如今,有十多个应用程序使用 Mira 的基础设施。

消费者整合

在消费者方面,Mira 已经为多个早期人工智能应用程序提供人工智能验证:

  • Creato:一款用于个性化每日报价和状态消息的发现和共享应用程序,为超过 12 万用户提供服务。
  • Astro247:用户与人工智能占星师聊天以获取个性化星座运势和预测的平台。
  • Amor:一款人工智能伴侣应用程序,允许用户与幻想人工智能角色进行沉浸式对话。
  • Klok:Mira 推出的专注于加密货币的 ChatGPT,它使用 CoinMarketCap 等 API 以及从加密网站和新闻媒体收集的网络数据来回答加密查询。

Delphi Oracle 是最新的,也许是最先进的集成。这位人工智能驱动的研究助理允许 @Delphi_Digital 会员可以直接参与研究内容、提出问题、澄清观点、整合价格信息,并将内容调整到不同的复杂程度。

Delphi Oracle 利用 Mira Network 的验证技术来提供可靠且准确的响应。通过验证多个模型的响应,Mira 将幻觉率从约 30% 降低到 5% 以下,确保了坚实的信任基础。

Delphi Oracle 的核心是 高性能查询路由器

  • 价格查询:直接路由到市场数据端点以获得近乎即时的响应。
  • 基本问题:由缓存响应系统处理,平衡速度和成本效益。
  • 复杂查询:针对专门的 LLM 处理流程,能够综合多个来源的信息。

这种智能路由系统与智能缓存相结合,通过平衡延迟、成本和质量来确保最佳性能。

Mira 的测试表明,较小的、具有成本效益的模型几乎可以像较大的模型一样处理大多数查询。这使得运营成本降低了 90%,同时保持了用户期望的高质量响应。

尽管其中许多消费者应用程序仍处于早期阶段,但它们凸显了 Mira 无缝集成和支持大型活跃用户群的能力。不难想象,只要开发者体验保持简单且价值主张保持清晰,就会有数千个应用程序插入 Mira 的生态系统。

B2B 应用

在 B2B 方面,Mira 专注于信任和精确性至关重要的行业的专业集成,最初的重点是医疗保健和教育。

主要应用包括:

  • 卫生保健:人工智能助手提供可靠的第二意见并支持医生做出关键决策。
  • 教育:个性化学习助手,可适应个别学生的需求,同时保持事实准确性并与课程保持一致。
  • 法律服务:能够准确总结判例法并预测法律结果以简化法律工作流程的系统。

Miran 的终局

Mira 的最终目标是提供本地验证的生成——用户只需通过 API 连接,就像 OpenAI 或 Anthropic 一样,并在返回之前接收预先验证的输出。

他们的目标是通过提供现有模型的高度可靠版本(例如 Mira-Claude-3.5-Sonnet 或 Mira-OpenAI-GPT-4o)来取代现有模型 API,并通过内置的、基于共识的可靠性进行增强。

市场规模

生成式人工智能正在飞速发展。根据彭博,市场预计将以惊人的42% 复合年增长率增长,到 2030 年收入将超过1 万亿美元。在这股巨大的浪潮中,提高 AI 工作流程速度、准确性和可靠性的工具将占据重要地位。

随着越来越多的企业将 LLM 集成到他们的工作流程中(从客户支持聊天机器人到复杂的研究助理),对强大模型验证的需求变得更加紧迫。

组织将寻求能够(1)测量模型准确性和可靠性,(2)诊断提示和参数效率低下,(3)持续监控性能和漂移,以及(4)确保遵守围绕人工智能安全的新兴监管框架的工具。

听起来很熟悉吗?这是我们之前见过的 MLOps(“机器学习操作”的缩写)的剧本。随着机器学习在 2010 年代规模化,部署、跟踪和维护模型的工具变得至关重要,创造了一个价值数十亿美元的市场。随着生成式人工智能的兴起, LLMOps 正在遵循相同的轨迹。

即使占据万亿美元市场的一小部分,也可能会在 2030 年将该子行业推至 100B+ 美元。

几家 Web2 初创公司已经做好了自己的定位,提供注释数据、微调模型和评估性能的工具:

• Braintrust(筹集 3600 万美元)

• Vellum AI(筹集 500 万美元)

• Humanloop(筹集 280 万美元)

这些先行者正在奠定基础,但这个领域瞬息万变。到 2025 年,我们可能会看到该领域的初创企业激增。有些公司可能专注于小众评估指标(例如偏差检测和稳健性测试),而另一些公司则扩大其产品范围,覆盖整个 AI 开发生命周期。

大型科技公司(如主要云提供商和 AI 平台)可能会将评估功能捆绑到其产品中。上个月,OpenAI在其平台上直接引入了评估。为了保持竞争力,初创公司必须通过专业化、易用性和高级分析来脱颖而出。

Mira 并不是这些初创公司或现有企业的直接竞争对手。相反,它是一个基础设施提供商,通过 API 与两者无缝集成。关键是什么?它必须有效。

Mira 的初始市场规模与 LLMOps 相关,但其 总的潜在市场将扩展到所有人工智能领域 因为每个人工智能应用都需要更可靠的输出。

从博弈论的角度来看,Mira 处于一个独特的境地。与 OpenAI 等其他模型提供商不同,Mira 可以跨模型集成。这使得 Mira 成为人工智能的信任层,提供任何单一提供商都无法比拟的可靠性。

2025 年路线图

Mira 的 2025 年路线图旨在在完全去中心化的道路上平衡完整性、可扩展性和社区参与:

第一阶段:引导信任(我们现在所处的位置)

在早期阶段,经过审查的节点运营商确保网络可靠性。知名GPU计算提供商作为第一波运营商,处理初始运营并为增长奠定坚实的基础。

第二阶段:渐进式去中心化

Mira 引入了设计重复,其中同一验证者模型的多个实例处理每个请求。虽然这会增加验证成本,但对于识别和消除恶意操作者至关重要。通过比较节点之间的输出,可以尽早发现不良行为者。

在成熟的形式下,Mira 将实施 随机分片 分配验证任务。这使得共谋在经济上不可行,并随着网络规模的扩大增强了网络的弹性和安全性。

第三阶段:合成基础模型

Mira 将在这里提供经过本地验证的世代。用户将通过类似于 OpenAI 或 Anthropic 的 API 进行连接,并接收预先验证的输出——可靠、随时可用的结果,无需额外验证。

在接下来的几个月中,Mira 正在为实现几个重大里程碑做准备:

  • 推出人工智能工作流程产品 Mira Flows,允许开发人员快速构建 API 驱动的人工智能应用程序
  • 一月份的公共测试网。
  • 代币发行也即将推出,目标是 2024 年第一季度。

🌈 节点委托者计划

Mira 正在通过其 节点委托者计划。这一举措使每个人都可以支持网络——无需技术专业知识。

该过程很简单:您可以租用计算资源并将其委托给一组精心策划的节点运营商。捐款范围从 35 美元到 750 美元不等,并为支持网络提供奖励。 Mira 管理所有复杂的基础设施,因此节点委托者可以坐下来观察网络的发展并捕捉一些优势。

团队

如今,Mira 拥有一支小而紧凑的团队,主要以工程为主。

联合创始人有3名:

  1. @karansirdesai(首席执行官),曾在 Accel 的加密货币和人工智能投资团队工作,并在 BCG 担任咨询顾问
  2. Sid Doddipalli (CTO) 是 IIT Madras 的校友,之前是 Stader Labs 的联合创始人,Stader Labs 是以太坊上的流动质押平台,TVL 超过 4 亿美元
  3. Ninad Naik (首席产品官)曾担任 Uber 产品管理总监和亚马逊智能家居部门总经理等领导职务。

他们将投资智慧、技术创新和产品领导力结合在一起,实现了 Mira 去中心化人工智能验证的愿景。 Mira 筹集了 900 万美元 种子轮 2024 年 7 月,由 BITKRAFT 和 Framework Ventures 牵头。

我们的想法

看到加密人工智能团队解决基本的 Web2 人工智能问题(让人工智能变得更好)而不是在加密泡沫中玩投机游戏,这令人耳目一新。

  • 验证将成为 2025 年的人工智能流行词

业界正在意识到验证的重要性。仅仅依靠“直觉”已经不够了。每个人工智能应用程序和工作流程很快都需要适当的验证流程,并且不难想象未来的法规会强制执行这些流程以确保安全。

Mira 的方法利用多个模型来独立验证输出,避免依赖单个集中式模型。这种去中心化的框架增强了信任并降低了偏见和操纵的风险。

让我们考虑一下如果我们在未来几年内实现 AGI/通用人工智能(确实有可能)会发生什么。

如Canonical Anand Iyer (@AI 指出,如果人工智能可以巧妙地操纵决策和代码,我们如何信任测试这些行为的系统?聪明人都会提前思考。Anthropic的研究 强调了紧迫性,强调评估是在潜在危险的人工智能能力升级为问题之前识别它们的关键工具。

通过实现彻底的透明度,区块链为防范恶意人工智能系统增加了一层强大的保护。无需信任的共识机制确保安全评估得到数千个独立节点的验证(如 Mira 上的验证),从而大大降低了 Sybil 攻击的风险。

  • 雄心勃勃的愿景与执行风险

Mira 正在追逐一个巨大的市场,该市场对有效的解决方案有明确的需求。但挑战是真实存在的。提高延迟、精度和成本效率需要不懈的工程努力和时间。团队需要不断地证明他们的方法明显优于现有的替代方法。

核心创新在于Mira的二值化和分片过程。这种“秘密武器”有望解决可扩展性和信任挑战。为了使 Mira 取得成功,这项技术需要兑现其承诺。

  • 代币设计和 Mira 的秘密武器

在任何去中心化网络中,代币和激励设计都是成败因素。 Mira 的成功将取决于这些机制在保持网络完整性的同时如何协调参与者的利益。

虽然 Mira 代币经济学的细节仍处于保密状态,但我预计团队将在 2025 年初代币发行临近时透露更多信息。

光明的未来

“我们发现,实施出色评估的工程团队的行动速度明显快于那些只是观察生产中发生的情况并尝试临时修复问题的团队,速度快了 10 倍,”- Ankur Goyal,Braintrust

在人工智能驱动的世界中,信任就是一切。

随着模型变得越来越复杂,可靠的验证将支撑每一个伟大的人工智能产品。它们帮助我们解决幻觉、消除偏见并确保人工智能输出符合用户的实际需求。

Mira 可以实现验证自动化,降低成本并减少对人工干预的依赖。这可以实现更快的迭代、实时调整和无瓶颈的可扩展解决方案。

最终,Mira 的目标是成为信任的 API——一个去中心化的验证框架,每个人工智能开发人员和应用程序都可以依赖它来获得经过验证的答案。

它大胆、雄心勃勃,正是人工智能世界所需要的。

感谢您的阅读,滕岩

免责声明:

  1. 本文转载自【Teng Yan】,转发原文标题:《Mira:无需信任的验证人工智能》。所有版权归原作者所有【Teng Yan】。若对本次转载有异议,请联系 Gate Learn 团队,他们会及时处理。
  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。
  3. Gate Learn 团队将文章翻译成其他语言。除非另有说明,否则禁止复制、分发或抄袭翻译文章。
即刻開始交易
註冊並交易即可獲得
$100
和價值
$5500
理財體驗金獎勵!