轉發原文標題:《Mira:無需信任的驗證人工智能》
幻覺: 一種對不存在的事物產生明顯感知的體驗
安德烈·卡帕蒂 (Andrej Karpathy) 將人工智能稱為“夢想機器”。他認為幻覺——人工智能自信地生成不真實事物的那些時刻——是一種特徵,而不是一個錯誤。試圖完全消除它們是徒勞的。老實說,這有一些詩意。
大型語言模型(LLM)是一位藝術家,一位創造者。它用代碼做夢,憑空產生想法,並從數據中解讀意義。但為了讓人工智能從美好的白日夢轉向實際的日常應用,我們必須控制這些幻覺。
LLM 在許多任務中的錯誤率仍然很高,通常徘徊在 30% 左右。在這個水平上,LLM 仍然需要人工參與才能達到可用的準確性標準。
但是,當我們達到難以捉摸的 99.x% 準確率(即輸出在沒有人為監督的情況下可靠)時,奇蹟就會發生。這是人工智能實現人類水平可靠性的門檻,解鎖了以前無法實現的無窮無盡的用例。
然而,達到這種精度水平並非易事。它需要不懈的工程努力和創新。
@Mira_Network 的故事從這裡開始。但在我們深入探討之前,讓我們花點時間討論一下 LLM 的發展,以及為什麼驗證正在成為人工智能領域的下一個重大事件。
LLM 開發是深度學習之旅的最新迭代,與我們過去 50 多年磨練的傳統軟件開發實踐不同。LLM 只存在了大約三年,完全翻轉了劇本,從 確定性思維 (如果 X,則 Y) 轉為概率推理 (如果 X,那麼……也許是 Y?)。
這意味著人工智能驅動的世界的基礎設施需要一套全新的工具和工作流程。然而,其中許多工具仍然被鎖在創建 LLM 的研究實驗室內。
好消息是,這些工具開始逐漸進入公共領域,為世界各地的開發人員打開了一個充滿可能性的世界。
在這個新工作流程的最後,存在著一個關鍵的難題: 評估和驗證。 今天,我們的焦點集中在這些方面。他們回答了一個基本問題: 人工智能運行良好嗎?
信任是任何偉大人工智能產品的基礎。
隨著人工智能日益成為我們生活中不可或缺的一部分,該技術本身仍然脆弱。錯誤總會發生,當錯誤發生時,信任就會迅速消失。用戶期望人工智能準確、公正且真正有幫助,但如果沒有可靠的系統來確保這一點,他們的挫敗感就會增加,而挫敗感會導致客戶流失。
這就是驗證發揮作用的地方。
驗證起到保障作用。它們是開發人員賴以完善輸出和構建用戶可以信任的系統的質量保證層。
Mira 正在通過加密技術的去信任透明性來解決 Web2 的核心問題。通過利用去中心化的驗證節點網絡,Mira 確保人工智能輸出得到準確、獨立的驗證。
假設您有一段關於巴黎市的 LLM 的輸出。你如何驗證它是否準確?這樣做很難,因為從主張到內容結構再到寫作風格,一切都存在很多細微差別。
這就是 Mira 介入的地方。
Mira 的願景非常大膽:創建一個可提供以下功能的第 1 層網絡: 人工智能輸出的無需信任、可擴展且準確的驗證。通過利用集體智慧,Mira 減少偏見和幻覺,解決公平和成本等核心問題,同時證明區塊鏈如何真正增強人工智能。
來源:Mira
早期結果令人鼓舞。在最近的發表在 Arxiv 上的研究 Mira 證明,使用多個模型生成輸出並達成共識可顯著提高準確率。使用 三個模型時,準確率達到95.6% ,而單個模型輸出的準確率僅為73.1% 。
Mira 的方法有兩個關鍵設計元素:
由於內容生成成本接近於零,人工智能生成的輸出範圍從簡單的陳述到龐大的論文。但這種豐富的複雜性帶來了一個挑戰:如何確保如此多樣化的輸出的準確性?
Mira 的解決方案很簡單: 分解它。
@Mira_Network 將複雜的人工智能生成的內容轉換為更小的、易於理解的片段,人工智能模型可以在稱為分片的過程中客觀地審查這些片段。
通過標準化輸出並將其分解為離散的、可驗證的聲明,Mira 確保每個部分都可以得到一致的評估,從而消除經常困擾評估的模糊性。
例如,考慮這個複合語句:
“植物中發生光合作用,將陽光轉化為能量,而蜜蜂通過在花朵之間轉移花粉,在授粉中發揮著關鍵作用。”
表面上看,驗證起來似乎很簡單。但當交給多個模型時,解釋怪癖可能會導致不同的答案。 Mira 通過分片進行內容轉換,通過將聲明分成兩個獨立的聲明來解決這個問題:
一旦分片,每個主張都會經過二值化,轉換為多項選擇題。這些問題被分發到運行人工智能模型的節點網絡。使用 Mira 的整體驗證方法,模型可以協作評估並確認每個聲明的有效性。
目前,Mira 的內容分片和二值化功能主要集中在文本輸入上。到 2025 年初,這些流程將擴展為支持多模式輸入,例如圖像和視頻
Mira 開發了一種先進的驗證系統,結合了多種人工智能模型的優勢來評估人工智能輸出的質量。
讓我們來解開它。
傳統的自動化評估通常依賴於單一大型語言模型 (LLM)(例如 GPT-4)作為質量的最終仲裁者。雖然有效,但這種方法存在重大缺陷:成本高昂、容易產生偏差,並且受到模型固有的怪癖和“個性”的限制。
Mira 的突破是從依賴單一大型模型轉變為利用 不同 LLM 的集合。 該整體在事實準確性比創意天賦更重要的任務中表現出色,可降低錯誤率並提供更可靠、一致的驗證。
集成技術已經在分類等機器學習任務中得到了充分研究,Mira 現在正在對其進行驗證。
Mira 系統的核心是 LLM 驗證者小組 (PoLL)——一個模型協作網絡,共同驗證輸出。將其視為一個多元化的專家小組對決定進行權衡,而不是將其交給單一的、可能存在偏見的法官。
這不僅僅是一廂情願——它是有研究基礎的。看看下面的圖表:
Cohere 研究發佈2024 年 4 月,一項研究證明,由三個較小模型(GPT-3.5、Claude-3 Haiku 和 Command R)組成的面板比單獨的 GPT-4 更接近人類判斷。值得注意的是,這種集成方法的成本也降低了 7 倍。
Mira 現在正在將這項研究付諸實踐,大規模部署其集成驗證方法。迄今為止,他們分享的內部結果令人信服:
• 錯誤率從 80% 降低至 5% 用於複雜的推理任務。
• 速度和成本提高 5 倍 與人工驗證相比。
這是一個不小的壯舉。通過採用共識機制,Mira 的多樣化模型集合有效地過濾了幻覺並平衡了個體模型的偏差。它們共同提供的東西大於其各部分之和:更快、更便宜且更符合我們需求的驗證。
回顧一下,Mira 的驗證系統建立在兩個基本設計原則之上:
維護多樣化的模型對於高質量輸出至關重要,這使得 Mira 的設計非常適合去中心化架構。消除單點故障對於任何驗證產品都至關重要。
Mira 使用基於區塊鏈的方法來確保沒有任何一個實體可以操縱結果。前提很簡單:人工智能生成的輸出應該像區塊鏈狀態變化一樣得到驗證。
驗證通過獨立節點網絡進行,運營商在經濟上受到激勵來執行準確的驗證。通過將獎勵與誠實相結合,Mira 的系統可以阻止不良行為者並確保可靠的結果。
它的工作原理如下:
Mira 通過將輸入數據分成更小的部分來確保數據機密性,確保沒有單個節點無法訪問完整的數據集。
為了提高安全性,Mira 支持動態隱私級別,允許用戶根據數據敏感性調整分片數量。雖然更高的隱私級別需要更多的分片(因此成本更高),但它們為處理敏感信息的用戶提供了更高的機密性。
節點執行的每次驗證都會記錄在區塊鏈上,從而創建驗證過程的透明且可審計的記錄。這種不可變的分類賬確保了傳統的非區塊鏈方法無法實現的信任和責任。
這為安全、公正的人工智能驗證設立了新標準。
在 Mira 的去中心化網絡中,誠實的工作會得到獎勵。
專家可以通過節點軟件部署專門的人工智能模型,並獲得準確驗證的代幣。反過來,人工智能開發人員為每次驗證支付費用,在需求和供應之間創建了一個自我維持的經濟循環。
這種方法將 Web2 工作流程的真正價值連接到 Web3 生態系統,直接獎勵推理提供者和模型創建者等參與者。
但激勵措施也伴隨著挑戰。在任何去中心化系統中,不良行為者都會嘗試利用網絡,提交虛假結果以在不做任何工作的情況下獲得獎勵。
那麼,我們如何確保節點實際上準確且誠實地執行其任務?
為了保持誠信,Mira 採用了 驗證證明機制 —— 一種受比特幣工作量證明啟發但專為人工智能設計的機制。節點必須證明自己已經完成了驗證任務才能參與共識過程,而不是挖掘區塊。
它的工作原理如下:
驗證證明創建了一個平衡的系統,在該系統中節點在經濟上受到激勵來執行高質量的驗證。這種機制確保網絡隨著時間的推移保持安全可靠。
問題在於: 如果 Mira 的方法如此有效,為什麼不是每個人都這樣做呢?
答案在於在現實世界中實施這樣一個系統的權衡和複雜性。在快速、準確的評估和管理多個模型的複雜性之間實現完美平衡絕非易事。
Mira 最大的障礙之一是 延遲。 雖然使用模型集合可以並行運行驗證,但同步結果和達成共識會帶來延遲。該過程的速度取決於最慢的節點。
目前,這使得 Mira 成為人工智能輸出批量處理的理想選擇——不需要實時結果的用例。隨著網絡隨著更多的節點和計算可用性而增長,長期目標是實現實時驗證,將 Mira 的適用性擴展到更廣泛的場景。
除了延遲之外,其他挑戰還包括:
工程複雜性: 跨多個模型協調評估並確保共識機制順利運行需要大量的工程工作。
更高的計算要求: 即使使用較小的模型,在集成中一起運行它們也會增加計算需求。
良好的共識機制設計: 通過多數投票、加權評分或其他方法達成共識的方式對系統的可靠性起著至關重要的作用。在不明確的情況下,集成可能難以協調,從而導致結果不一致。
來源:Mira
Mira 的 API 可以輕鬆地與任何應用程序集成,類似於 OpenAI 的 GPT-4o。它與消費者和 B2B 應用程序無關,使其成為適用於各種用例的多功能解決方案。如今,有十多個應用程序使用 Mira 的基礎設施。
消費者整合
在消費者方面,Mira 已經為多個早期人工智能應用程序提供人工智能驗證:
Delphi Oracle 是最新的,也許是最先進的集成。這位人工智能驅動的研究助理允許 @Delphi_Digital 會員可以直接參與研究內容、提出問題、澄清觀點、整合價格信息,並將內容調整到不同的複雜程度。
Delphi Oracle 利用 Mira Network 的驗證技術來提供可靠且準確的響應。通過驗證多個模型的響應,Mira 將幻覺率從約 30% 降低到 5% 以下,確保了堅實的信任基礎。
Delphi Oracle 的核心是 高性能查詢路由器
這種智能路由系統與智能緩存相結合,通過平衡延遲、成本和質量來確保最佳性能。
Mira 的測試表明,較小的、具有成本效益的模型幾乎可以像較大的模型一樣處理大多數查詢。這使得運營成本降低了 90%,同時保持了用戶期望的高質量響應。
儘管其中許多消費者應用程序仍處於早期階段,但它們凸顯了 Mira 無縫集成和支持大型活躍用戶群的能力。不難想象,只要開發者體驗保持簡單且價值主張保持清晰,就會有數千個應用程序插入 Mira 的生態系統。
B2B 應用
在 B2B 方面,Mira 專注於信任和精確性至關重要的行業的專業集成,最初的重點是醫療保健和教育。
主要應用包括:
Mira 的最終目標是提供本地驗證的生成——用戶只需通過 API 連接,就像 OpenAI 或 Anthropic 一樣,並在返回之前接收預先驗證的輸出。
他們的目標是通過提供現有模型的高度可靠版本(例如 Mira-Claude-3.5-Sonnet 或 Mira-OpenAI-GPT-4o)來取代現有模型 API,並通過內置的、基於共識的可靠性進行增強。
生成式人工智能正在飛速發展。根據彭博,市場預計將以驚人的42% 複合年增長率增長,到 2030 年收入將超過1 萬億美元。在這股巨大的浪潮中,提高 AI 工作流程速度、準確性和可靠性的工具將佔據重要地位。
隨著越來越多的企業將 LLM 集成到他們的工作流程中(從客戶支持聊天機器人到複雜的研究助理),對強大模型驗證的需求變得更加緊迫。
組織將尋求能夠(1)測量模型準確性和可靠性,(2)診斷提示和參數效率低下,(3)持續監控性能和漂移,以及(4)確保遵守圍繞人工智能安全的新興監管框架的工具。
聽起來很熟悉嗎?這是我們之前見過的 MLOps(“機器學習操作”的縮寫)的劇本。隨著機器學習在 2010 年代規模化,部署、跟蹤和維護模型的工具變得至關重要,創造了一個價值數十億美元的市場。隨著生成式人工智能的興起, LLMOps 正在遵循相同的軌跡。
即使佔據萬億美元市場的一小部分,也可能會在 2030 年將該子行業推至 100B+ 美元。
幾家 Web2 初創公司已經做好了自己的定位,提供註釋數據、微調模型和評估性能的工具:
• Braintrust(籌集 3600 萬美元)
• Vellum AI(籌集 500 萬美元)
• Humanloop(籌集 280 萬美元)
這些先行者正在奠定基礎,但這個領域瞬息萬變。到 2025 年,我們可能會看到該領域的初創企業激增。有些公司可能專注於小眾評估指標(例如偏差檢測和穩健性測試),而另一些公司則擴大其產品範圍,覆蓋整個 AI 開發生命週期。
大型科技公司(如主要雲提供商和 AI 平臺)可能會將評估功能捆綁到其產品中。上個月,OpenAI在其平臺上直接引入了評估。為了保持競爭力,初創公司必須通過專業化、易用性和高級分析來脫穎而出。
Mira 並不是這些初創公司或現有企業的直接競爭對手。相反,它是一個基礎設施提供商,通過 API 與兩者無縫集成。關鍵是什麼?它必須有效。
Mira 的初始市場規模與 LLMOps 相關,但其 總的潛在市場將擴展到所有人工智能領域 因為每個人工智能應用都需要更可靠的輸出。
從博弈論的角度來看,Mira 處於一個獨特的境地。與 OpenAI 等其他模型提供商不同,Mira 可以跨模型集成。這使得 Mira 成為人工智能的信任層,提供任何單一提供商都無法比擬的可靠性。
Mira 的 2025 年路線圖旨在在完全去中心化的道路上平衡完整性、可擴展性和社區參與:
第一階段:引導信任(我們現在所處的位置)
在早期階段,經過審查的節點運營商確保網絡可靠性。知名GPU計算提供商作為第一波運營商,處理初始運營併為增長奠定堅實的基礎。
第二階段:漸進式去中心化
Mira 引入了設計重複,其中同一驗證者模型的多個實例處理每個請求。雖然這會增加驗證成本,但對於識別和消除惡意操作者至關重要。通過比較節點之間的輸出,可以儘早發現不良行為者。
在成熟的形式下,Mira 將實施 隨機分片 分配驗證任務。這使得共謀在經濟上不可行,並隨著網絡規模的擴大增強了網絡的彈性和安全性。
第三階段:合成基礎模型
Mira 將在這裡提供經過本地驗證的世代。用戶將通過類似於 OpenAI 或 Anthropic 的 API 進行連接,並接收預先驗證的輸出——可靠、隨時可用的結果,無需額外驗證。
在接下來的幾個月中,Mira 正在為實現幾個重大里程碑做準備:
Mira 正在通過其 節點委託者計劃。這一舉措使每個人都可以支持網絡——無需技術專業知識。
該過程很簡單:您可以租用計算資源並將其委託給一組精心策劃的節點運營商。捐款範圍從 35 美元到 750 美元不等,併為支持網絡提供獎勵。 Mira 管理所有複雜的基礎設施,因此節點委託者可以坐下來觀察網絡的發展並捕捉一些優勢。
如今,Mira 擁有一支小而緊湊的團隊,主要以工程為主。
聯合創始人有3名:
他們將投資智慧、技術創新和產品領導力結合在一起,實現了 Mira 去中心化人工智能驗證的願景。 Mira 籌集了 900 萬美元 種子輪 2024 年 7 月,由 BITKRAFT 和 Framework Ventures 牽頭。
看到加密人工智能團隊解決基本的 Web2 人工智能問題(讓人工智能變得更好)而不是在加密泡沫中玩投機遊戲,這令人耳目一新。
業界正在意識到驗證的重要性。僅僅依靠“直覺”已經不夠了。每個人工智能應用程序和工作流程很快都需要適當的驗證流程,並且不難想象未來的法規會強制執行這些流程以確保安全。
Mira 的方法利用多個模型來獨立驗證輸出,避免依賴單個集中式模型。這種去中心化的框架增強了信任並降低了偏見和操縱的風險。
讓我們考慮一下如果我們在未來幾年內實現 AGI/通用人工智能(確實有可能)會發生什麼。
如Canonical Anand Iyer (@AI 指出,如果人工智能可以巧妙地操縱決策和代碼,我們如何信任測試這些行為的系統?聰明人都會提前思考。Anthropic的研究 強調了緊迫性,強調評估是在潛在危險的人工智能能力升級為問題之前識別它們的關鍵工具。
通過實現徹底的透明度,區塊鏈為防範惡意人工智能系統增加了一層強大的保護。無需信任的共識機制確保安全評估得到數千個獨立節點的驗證(如 Mira 上的驗證),從而大大降低了 Sybil 攻擊的風險。
Mira 正在追逐一個巨大的市場,該市場對有效的解決方案有明確的需求。但挑戰是真實存在的。提高延遲、精度和成本效率需要不懈的工程努力和時間。團隊需要不斷地證明他們的方法明顯優於現有的替代方法。
核心創新在於Mira的二值化和分片過程。這種“祕密武器”有望解決可擴展性和信任挑戰。為了使 Mira 取得成功,這項技術需要兌現其承諾。
在任何去中心化網絡中,代幣和激勵設計都是成敗因素。 Mira 的成功將取決於這些機制在保持網絡完整性的同時如何協調參與者的利益。
雖然 Mira 代幣經濟學的細節仍處於保密狀態,但我預計團隊將在 2025 年初代幣發行臨近時透露更多信息。
“我們發現,實施出色評估的工程團隊的行動速度明顯快於那些只是觀察生產中發生的情況並嘗試臨時修復問題的團隊,速度快了 10 倍,”- Ankur Goyal,Braintrust
在人工智能驅動的世界中,信任就是一切。
隨著模型變得越來越複雜,可靠的驗證將支撐每一個偉大的人工智能產品。它們幫助我們解決幻覺、消除偏見並確保人工智能輸出符合用戶的實際需求。
Mira 可以實現驗證自動化,降低成本並減少對人工干預的依賴。這可以實現更快的迭代、實時調整和無瓶頸的可擴展解決方案。
最終,Mira 的目標是成為信任的 API——一個去中心化的驗證框架,每個人工智能開發人員和應用程序都可以依賴它來獲得經過驗證的答案。
它大膽、雄心勃勃,正是人工智能世界所需要的。
感謝您的閱讀,滕巖
轉發原文標題:《Mira:無需信任的驗證人工智能》
幻覺: 一種對不存在的事物產生明顯感知的體驗
安德烈·卡帕蒂 (Andrej Karpathy) 將人工智能稱為“夢想機器”。他認為幻覺——人工智能自信地生成不真實事物的那些時刻——是一種特徵,而不是一個錯誤。試圖完全消除它們是徒勞的。老實說,這有一些詩意。
大型語言模型(LLM)是一位藝術家,一位創造者。它用代碼做夢,憑空產生想法,並從數據中解讀意義。但為了讓人工智能從美好的白日夢轉向實際的日常應用,我們必須控制這些幻覺。
LLM 在許多任務中的錯誤率仍然很高,通常徘徊在 30% 左右。在這個水平上,LLM 仍然需要人工參與才能達到可用的準確性標準。
但是,當我們達到難以捉摸的 99.x% 準確率(即輸出在沒有人為監督的情況下可靠)時,奇蹟就會發生。這是人工智能實現人類水平可靠性的門檻,解鎖了以前無法實現的無窮無盡的用例。
然而,達到這種精度水平並非易事。它需要不懈的工程努力和創新。
@Mira_Network 的故事從這裡開始。但在我們深入探討之前,讓我們花點時間討論一下 LLM 的發展,以及為什麼驗證正在成為人工智能領域的下一個重大事件。
LLM 開發是深度學習之旅的最新迭代,與我們過去 50 多年磨練的傳統軟件開發實踐不同。LLM 只存在了大約三年,完全翻轉了劇本,從 確定性思維 (如果 X,則 Y) 轉為概率推理 (如果 X,那麼……也許是 Y?)。
這意味著人工智能驅動的世界的基礎設施需要一套全新的工具和工作流程。然而,其中許多工具仍然被鎖在創建 LLM 的研究實驗室內。
好消息是,這些工具開始逐漸進入公共領域,為世界各地的開發人員打開了一個充滿可能性的世界。
在這個新工作流程的最後,存在著一個關鍵的難題: 評估和驗證。 今天,我們的焦點集中在這些方面。他們回答了一個基本問題: 人工智能運行良好嗎?
信任是任何偉大人工智能產品的基礎。
隨著人工智能日益成為我們生活中不可或缺的一部分,該技術本身仍然脆弱。錯誤總會發生,當錯誤發生時,信任就會迅速消失。用戶期望人工智能準確、公正且真正有幫助,但如果沒有可靠的系統來確保這一點,他們的挫敗感就會增加,而挫敗感會導致客戶流失。
這就是驗證發揮作用的地方。
驗證起到保障作用。它們是開發人員賴以完善輸出和構建用戶可以信任的系統的質量保證層。
Mira 正在通過加密技術的去信任透明性來解決 Web2 的核心問題。通過利用去中心化的驗證節點網絡,Mira 確保人工智能輸出得到準確、獨立的驗證。
假設您有一段關於巴黎市的 LLM 的輸出。你如何驗證它是否準確?這樣做很難,因為從主張到內容結構再到寫作風格,一切都存在很多細微差別。
這就是 Mira 介入的地方。
Mira 的願景非常大膽:創建一個可提供以下功能的第 1 層網絡: 人工智能輸出的無需信任、可擴展且準確的驗證。通過利用集體智慧,Mira 減少偏見和幻覺,解決公平和成本等核心問題,同時證明區塊鏈如何真正增強人工智能。
來源:Mira
早期結果令人鼓舞。在最近的發表在 Arxiv 上的研究 Mira 證明,使用多個模型生成輸出並達成共識可顯著提高準確率。使用 三個模型時,準確率達到95.6% ,而單個模型輸出的準確率僅為73.1% 。
Mira 的方法有兩個關鍵設計元素:
由於內容生成成本接近於零,人工智能生成的輸出範圍從簡單的陳述到龐大的論文。但這種豐富的複雜性帶來了一個挑戰:如何確保如此多樣化的輸出的準確性?
Mira 的解決方案很簡單: 分解它。
@Mira_Network 將複雜的人工智能生成的內容轉換為更小的、易於理解的片段,人工智能模型可以在稱為分片的過程中客觀地審查這些片段。
通過標準化輸出並將其分解為離散的、可驗證的聲明,Mira 確保每個部分都可以得到一致的評估,從而消除經常困擾評估的模糊性。
例如,考慮這個複合語句:
“植物中發生光合作用,將陽光轉化為能量,而蜜蜂通過在花朵之間轉移花粉,在授粉中發揮著關鍵作用。”
表面上看,驗證起來似乎很簡單。但當交給多個模型時,解釋怪癖可能會導致不同的答案。 Mira 通過分片進行內容轉換,通過將聲明分成兩個獨立的聲明來解決這個問題:
一旦分片,每個主張都會經過二值化,轉換為多項選擇題。這些問題被分發到運行人工智能模型的節點網絡。使用 Mira 的整體驗證方法,模型可以協作評估並確認每個聲明的有效性。
目前,Mira 的內容分片和二值化功能主要集中在文本輸入上。到 2025 年初,這些流程將擴展為支持多模式輸入,例如圖像和視頻
Mira 開發了一種先進的驗證系統,結合了多種人工智能模型的優勢來評估人工智能輸出的質量。
讓我們來解開它。
傳統的自動化評估通常依賴於單一大型語言模型 (LLM)(例如 GPT-4)作為質量的最終仲裁者。雖然有效,但這種方法存在重大缺陷:成本高昂、容易產生偏差,並且受到模型固有的怪癖和“個性”的限制。
Mira 的突破是從依賴單一大型模型轉變為利用 不同 LLM 的集合。 該整體在事實準確性比創意天賦更重要的任務中表現出色,可降低錯誤率並提供更可靠、一致的驗證。
集成技術已經在分類等機器學習任務中得到了充分研究,Mira 現在正在對其進行驗證。
Mira 系統的核心是 LLM 驗證者小組 (PoLL)——一個模型協作網絡,共同驗證輸出。將其視為一個多元化的專家小組對決定進行權衡,而不是將其交給單一的、可能存在偏見的法官。
這不僅僅是一廂情願——它是有研究基礎的。看看下面的圖表:
Cohere 研究發佈2024 年 4 月,一項研究證明,由三個較小模型(GPT-3.5、Claude-3 Haiku 和 Command R)組成的面板比單獨的 GPT-4 更接近人類判斷。值得注意的是,這種集成方法的成本也降低了 7 倍。
Mira 現在正在將這項研究付諸實踐,大規模部署其集成驗證方法。迄今為止,他們分享的內部結果令人信服:
• 錯誤率從 80% 降低至 5% 用於複雜的推理任務。
• 速度和成本提高 5 倍 與人工驗證相比。
這是一個不小的壯舉。通過採用共識機制,Mira 的多樣化模型集合有效地過濾了幻覺並平衡了個體模型的偏差。它們共同提供的東西大於其各部分之和:更快、更便宜且更符合我們需求的驗證。
回顧一下,Mira 的驗證系統建立在兩個基本設計原則之上:
維護多樣化的模型對於高質量輸出至關重要,這使得 Mira 的設計非常適合去中心化架構。消除單點故障對於任何驗證產品都至關重要。
Mira 使用基於區塊鏈的方法來確保沒有任何一個實體可以操縱結果。前提很簡單:人工智能生成的輸出應該像區塊鏈狀態變化一樣得到驗證。
驗證通過獨立節點網絡進行,運營商在經濟上受到激勵來執行準確的驗證。通過將獎勵與誠實相結合,Mira 的系統可以阻止不良行為者並確保可靠的結果。
它的工作原理如下:
Mira 通過將輸入數據分成更小的部分來確保數據機密性,確保沒有單個節點無法訪問完整的數據集。
為了提高安全性,Mira 支持動態隱私級別,允許用戶根據數據敏感性調整分片數量。雖然更高的隱私級別需要更多的分片(因此成本更高),但它們為處理敏感信息的用戶提供了更高的機密性。
節點執行的每次驗證都會記錄在區塊鏈上,從而創建驗證過程的透明且可審計的記錄。這種不可變的分類賬確保了傳統的非區塊鏈方法無法實現的信任和責任。
這為安全、公正的人工智能驗證設立了新標準。
在 Mira 的去中心化網絡中,誠實的工作會得到獎勵。
專家可以通過節點軟件部署專門的人工智能模型,並獲得準確驗證的代幣。反過來,人工智能開發人員為每次驗證支付費用,在需求和供應之間創建了一個自我維持的經濟循環。
這種方法將 Web2 工作流程的真正價值連接到 Web3 生態系統,直接獎勵推理提供者和模型創建者等參與者。
但激勵措施也伴隨著挑戰。在任何去中心化系統中,不良行為者都會嘗試利用網絡,提交虛假結果以在不做任何工作的情況下獲得獎勵。
那麼,我們如何確保節點實際上準確且誠實地執行其任務?
為了保持誠信,Mira 採用了 驗證證明機制 —— 一種受比特幣工作量證明啟發但專為人工智能設計的機制。節點必須證明自己已經完成了驗證任務才能參與共識過程,而不是挖掘區塊。
它的工作原理如下:
驗證證明創建了一個平衡的系統,在該系統中節點在經濟上受到激勵來執行高質量的驗證。這種機制確保網絡隨著時間的推移保持安全可靠。
問題在於: 如果 Mira 的方法如此有效,為什麼不是每個人都這樣做呢?
答案在於在現實世界中實施這樣一個系統的權衡和複雜性。在快速、準確的評估和管理多個模型的複雜性之間實現完美平衡絕非易事。
Mira 最大的障礙之一是 延遲。 雖然使用模型集合可以並行運行驗證,但同步結果和達成共識會帶來延遲。該過程的速度取決於最慢的節點。
目前,這使得 Mira 成為人工智能輸出批量處理的理想選擇——不需要實時結果的用例。隨著網絡隨著更多的節點和計算可用性而增長,長期目標是實現實時驗證,將 Mira 的適用性擴展到更廣泛的場景。
除了延遲之外,其他挑戰還包括:
工程複雜性: 跨多個模型協調評估並確保共識機制順利運行需要大量的工程工作。
更高的計算要求: 即使使用較小的模型,在集成中一起運行它們也會增加計算需求。
良好的共識機制設計: 通過多數投票、加權評分或其他方法達成共識的方式對系統的可靠性起著至關重要的作用。在不明確的情況下,集成可能難以協調,從而導致結果不一致。
來源:Mira
Mira 的 API 可以輕鬆地與任何應用程序集成,類似於 OpenAI 的 GPT-4o。它與消費者和 B2B 應用程序無關,使其成為適用於各種用例的多功能解決方案。如今,有十多個應用程序使用 Mira 的基礎設施。
消費者整合
在消費者方面,Mira 已經為多個早期人工智能應用程序提供人工智能驗證:
Delphi Oracle 是最新的,也許是最先進的集成。這位人工智能驅動的研究助理允許 @Delphi_Digital 會員可以直接參與研究內容、提出問題、澄清觀點、整合價格信息,並將內容調整到不同的複雜程度。
Delphi Oracle 利用 Mira Network 的驗證技術來提供可靠且準確的響應。通過驗證多個模型的響應,Mira 將幻覺率從約 30% 降低到 5% 以下,確保了堅實的信任基礎。
Delphi Oracle 的核心是 高性能查詢路由器
這種智能路由系統與智能緩存相結合,通過平衡延遲、成本和質量來確保最佳性能。
Mira 的測試表明,較小的、具有成本效益的模型幾乎可以像較大的模型一樣處理大多數查詢。這使得運營成本降低了 90%,同時保持了用戶期望的高質量響應。
儘管其中許多消費者應用程序仍處於早期階段,但它們凸顯了 Mira 無縫集成和支持大型活躍用戶群的能力。不難想象,只要開發者體驗保持簡單且價值主張保持清晰,就會有數千個應用程序插入 Mira 的生態系統。
B2B 應用
在 B2B 方面,Mira 專注於信任和精確性至關重要的行業的專業集成,最初的重點是醫療保健和教育。
主要應用包括:
Mira 的最終目標是提供本地驗證的生成——用戶只需通過 API 連接,就像 OpenAI 或 Anthropic 一樣,並在返回之前接收預先驗證的輸出。
他們的目標是通過提供現有模型的高度可靠版本(例如 Mira-Claude-3.5-Sonnet 或 Mira-OpenAI-GPT-4o)來取代現有模型 API,並通過內置的、基於共識的可靠性進行增強。
生成式人工智能正在飛速發展。根據彭博,市場預計將以驚人的42% 複合年增長率增長,到 2030 年收入將超過1 萬億美元。在這股巨大的浪潮中,提高 AI 工作流程速度、準確性和可靠性的工具將佔據重要地位。
隨著越來越多的企業將 LLM 集成到他們的工作流程中(從客戶支持聊天機器人到複雜的研究助理),對強大模型驗證的需求變得更加緊迫。
組織將尋求能夠(1)測量模型準確性和可靠性,(2)診斷提示和參數效率低下,(3)持續監控性能和漂移,以及(4)確保遵守圍繞人工智能安全的新興監管框架的工具。
聽起來很熟悉嗎?這是我們之前見過的 MLOps(“機器學習操作”的縮寫)的劇本。隨著機器學習在 2010 年代規模化,部署、跟蹤和維護模型的工具變得至關重要,創造了一個價值數十億美元的市場。隨著生成式人工智能的興起, LLMOps 正在遵循相同的軌跡。
即使佔據萬億美元市場的一小部分,也可能會在 2030 年將該子行業推至 100B+ 美元。
幾家 Web2 初創公司已經做好了自己的定位,提供註釋數據、微調模型和評估性能的工具:
• Braintrust(籌集 3600 萬美元)
• Vellum AI(籌集 500 萬美元)
• Humanloop(籌集 280 萬美元)
這些先行者正在奠定基礎,但這個領域瞬息萬變。到 2025 年,我們可能會看到該領域的初創企業激增。有些公司可能專注於小眾評估指標(例如偏差檢測和穩健性測試),而另一些公司則擴大其產品範圍,覆蓋整個 AI 開發生命週期。
大型科技公司(如主要雲提供商和 AI 平臺)可能會將評估功能捆綁到其產品中。上個月,OpenAI在其平臺上直接引入了評估。為了保持競爭力,初創公司必須通過專業化、易用性和高級分析來脫穎而出。
Mira 並不是這些初創公司或現有企業的直接競爭對手。相反,它是一個基礎設施提供商,通過 API 與兩者無縫集成。關鍵是什麼?它必須有效。
Mira 的初始市場規模與 LLMOps 相關,但其 總的潛在市場將擴展到所有人工智能領域 因為每個人工智能應用都需要更可靠的輸出。
從博弈論的角度來看,Mira 處於一個獨特的境地。與 OpenAI 等其他模型提供商不同,Mira 可以跨模型集成。這使得 Mira 成為人工智能的信任層,提供任何單一提供商都無法比擬的可靠性。
Mira 的 2025 年路線圖旨在在完全去中心化的道路上平衡完整性、可擴展性和社區參與:
第一階段:引導信任(我們現在所處的位置)
在早期階段,經過審查的節點運營商確保網絡可靠性。知名GPU計算提供商作為第一波運營商,處理初始運營併為增長奠定堅實的基礎。
第二階段:漸進式去中心化
Mira 引入了設計重複,其中同一驗證者模型的多個實例處理每個請求。雖然這會增加驗證成本,但對於識別和消除惡意操作者至關重要。通過比較節點之間的輸出,可以儘早發現不良行為者。
在成熟的形式下,Mira 將實施 隨機分片 分配驗證任務。這使得共謀在經濟上不可行,並隨著網絡規模的擴大增強了網絡的彈性和安全性。
第三階段:合成基礎模型
Mira 將在這裡提供經過本地驗證的世代。用戶將通過類似於 OpenAI 或 Anthropic 的 API 進行連接,並接收預先驗證的輸出——可靠、隨時可用的結果,無需額外驗證。
在接下來的幾個月中,Mira 正在為實現幾個重大里程碑做準備:
Mira 正在通過其 節點委託者計劃。這一舉措使每個人都可以支持網絡——無需技術專業知識。
該過程很簡單:您可以租用計算資源並將其委託給一組精心策劃的節點運營商。捐款範圍從 35 美元到 750 美元不等,併為支持網絡提供獎勵。 Mira 管理所有複雜的基礎設施,因此節點委託者可以坐下來觀察網絡的發展並捕捉一些優勢。
如今,Mira 擁有一支小而緊湊的團隊,主要以工程為主。
聯合創始人有3名:
他們將投資智慧、技術創新和產品領導力結合在一起,實現了 Mira 去中心化人工智能驗證的願景。 Mira 籌集了 900 萬美元 種子輪 2024 年 7 月,由 BITKRAFT 和 Framework Ventures 牽頭。
看到加密人工智能團隊解決基本的 Web2 人工智能問題(讓人工智能變得更好)而不是在加密泡沫中玩投機遊戲,這令人耳目一新。
業界正在意識到驗證的重要性。僅僅依靠“直覺”已經不夠了。每個人工智能應用程序和工作流程很快都需要適當的驗證流程,並且不難想象未來的法規會強制執行這些流程以確保安全。
Mira 的方法利用多個模型來獨立驗證輸出,避免依賴單個集中式模型。這種去中心化的框架增強了信任並降低了偏見和操縱的風險。
讓我們考慮一下如果我們在未來幾年內實現 AGI/通用人工智能(確實有可能)會發生什麼。
如Canonical Anand Iyer (@AI 指出,如果人工智能可以巧妙地操縱決策和代碼,我們如何信任測試這些行為的系統?聰明人都會提前思考。Anthropic的研究 強調了緊迫性,強調評估是在潛在危險的人工智能能力升級為問題之前識別它們的關鍵工具。
通過實現徹底的透明度,區塊鏈為防範惡意人工智能系統增加了一層強大的保護。無需信任的共識機制確保安全評估得到數千個獨立節點的驗證(如 Mira 上的驗證),從而大大降低了 Sybil 攻擊的風險。
Mira 正在追逐一個巨大的市場,該市場對有效的解決方案有明確的需求。但挑戰是真實存在的。提高延遲、精度和成本效率需要不懈的工程努力和時間。團隊需要不斷地證明他們的方法明顯優於現有的替代方法。
核心創新在於Mira的二值化和分片過程。這種“祕密武器”有望解決可擴展性和信任挑戰。為了使 Mira 取得成功,這項技術需要兌現其承諾。
在任何去中心化網絡中,代幣和激勵設計都是成敗因素。 Mira 的成功將取決於這些機制在保持網絡完整性的同時如何協調參與者的利益。
雖然 Mira 代幣經濟學的細節仍處於保密狀態,但我預計團隊將在 2025 年初代幣發行臨近時透露更多信息。
“我們發現,實施出色評估的工程團隊的行動速度明顯快於那些只是觀察生產中發生的情況並嘗試臨時修復問題的團隊,速度快了 10 倍,”- Ankur Goyal,Braintrust
在人工智能驅動的世界中,信任就是一切。
隨著模型變得越來越複雜,可靠的驗證將支撐每一個偉大的人工智能產品。它們幫助我們解決幻覺、消除偏見並確保人工智能輸出符合用戶的實際需求。
Mira 可以實現驗證自動化,降低成本並減少對人工干預的依賴。這可以實現更快的迭代、實時調整和無瓶頸的可擴展解決方案。
最終,Mira 的目標是成為信任的 API——一個去中心化的驗證框架,每個人工智能開發人員和應用程序都可以依賴它來獲得經過驗證的答案。
它大膽、雄心勃勃,正是人工智能世界所需要的。
感謝您的閱讀,滕巖