Gate 廣場|2/27 今日話題: #BTC能否重返7万美元?
🎁 帶話題發帖,抽 5 位幸運兒送出 $2,500 仓位體驗券!
Jane Street 被起訴後,持續多日的“10 點砸盤”疑似消失。BTC 目前在 $67,000 附近震盪,這波反彈能否順勢衝回 $70,000?
💬 本期熱議:
1️⃣ 你認為訴訟與“10 點拋壓”消失有關嗎?市場操縱阻力是否減弱?
2️⃣ 衝擊 $70K 的關鍵壓力區在哪?
3️⃣ 你會在當前價位分批布局,還是等待放量突破再進場?
分享觀點,瓜分好禮 👉️ https://www.gate.com/post
📅 2/27 16:00 - 3/1 12:00 (UTC+8)
Tether 擴展 Open AI 訓練數據,發布 QVAC Genesis II 數據集
探索頂尖金融科技新聞與活動!
訂閱金融科技週刊的電子報
由摩根大通、Coinbase、貝萊德、Klarna 等高管閱讀
Open AI訓練資料的重大擴展
Tether Data 發布了其人工智慧合成教育資料集的新版本,顯著增加了全球研究人員可用的開放訓練資料的數量與範圍。該公司AI研究部門QVAC宣布,名為QVAC Genesis II的新版本在原有資料集的基礎上新增了1070億個標記,使總容量達到1480億個標記。
擴展後的資料集現已成為公開可用的最大專為AI預訓練設計的合成教育資源,涵蓋19個學術領域,旨在改善模型的推理、解釋與決策能力,而非僅僅表面模式識別。
此公告將該版本定位為推動更透明、更易取得的AI開發的一步,當前許多先進的訓練資料仍被鎖在專有系統中。
建立於第一版Genesis的基礎上
QVAC Genesis II建立在最早推出的Genesis I之上,該版本專注於建立一個經過驗證、以教育為中心的合成資料集,涵蓋核心科學、技術、工程與數學科目。早期版本建立了生成結構化訓練問題的框架,旨在提升推理準確性。
新版本將範圍擴展到十個額外領域,包括化學、計算機科學、統計學、機器學習、天文學、地理學、計量經濟學與電機工程,也重新生成大學物理內容,採用更新的方法以提高清晰度。
這兩個版本合併,形成了QVAC所稱的迄今為止最全面的合成教育資料集。該資料集用於預訓練大型語言模型及其他需要結構化學術資料的AI系統。
訓練資料生成方式的轉變
Genesis II的核心是一種稱為選項層推理(Option-Level Reasoning)的新資料生成方法。此方法不同於許多現有的合成資料技術,不僅關注錯誤答案,也重視正確答案。
它不將正確答案視為終點,而是分析多選題中的每個選項。正確選項會被拆解,強化其正確原因;錯誤選項則用來糾正常見誤解。這種結構使模型能學習因果推理與決策邏輯,而非僅僅將問題與結果聯繫起來。
此方法與Genesis I中引入的失誤分析(Failure Analysis)相輔相成,後者專注於從模型錯誤中提取價值。兩者共同形成一個每個生成問題都具有教學價值的流程。
QVAC引用的獨立評估顯示,基於Genesis II資料訓練的模型在推理準確性方面表現更佳,並能產出更清晰的答案。
重視理解而非流暢
當前許多AI訓練系統依賴大量文本資料(常來自公開來源)來提升語言流暢度。QVAC的目標則不同,重點在於教模型如何推理問題與清楚解釋結論。
公司領導表示,目標是超越僅預測文本序列的訓練系統,轉而打造能理解底層概念的模型。資料集設計優先考慮清晰性、因果關係與邏輯,旨在減少模型輸出中的歧義。
此策略符合AI研究中關於可靠性與可解釋性的更廣泛討論,尤其在教育、科學與決策支援等應用場景中。
研究人員與開發者的開放存取
與原始Genesis資料集類似,QVAC Genesis II亦將開放發布。資料集採用創用CC非商業(CC BY-NC 4.0)授權,允許研究人員、學術機構與獨立開發者在非商業用途下使用與研究。
資料集與相關模型托管於Hugging Face,並附有詳細技術論文,說明生成方法與評估結果。此開放策略旨在降低缺乏大型專有資料集的研究者的門檻。
透過非商業授權,QVAC希望支持學術與社群研究,同時限制直接商業化利用。
促進去中心化AI開發
此發布也符合Tether Data推動去中心化AI發展的整體策略。公司表示,高品質的訓練資料不應只由擁有集中式雲端基礎設施的組織掌握。
透過公開大型結構化資料集,QVAC旨在促進本地訓練、實驗與部署AI模型。此策略支持計算資源有限但智力貢獻仍具價值的研究環境。
強調去中心化反映出對於減少對少數主導AI平台依賴、促進更分散研究生態系的日益關注。
Tether在AI研究中的角色
QVAC是Tether Data的AI研究部門。雖然Tether以數字資產與穩定幣聞名,但近年來也擴展至資料與AI研究。
透過QVAC,Tether Data專注於建立支持開放研究的基礎設施與資源。Genesis資料集是該努力的代表性成果之一,彰顯公司在開放AI開發與教育導向訓練資料的討論中的地位。
此工作也反映出金融科技公司與先進AI研究日益交融的趨勢,金融科技企業越來越投入資料科學與機器學習能力。
公司領導對此發布的看法
公司領導將Genesis II的發布描述為擺脫僅重視數量的訓練方法。Tether高層表示,重點在於教導AI如何推理與解釋,而非僅產生流暢的回應。
Tether執行長Paolo Ardoino強調,可靠的AI應建立在理解答案正確原因的基礎上。他認為,公開資料集反映了相信更強、更具解釋性的AI能惠及社會的理念。
這些觀點呼應研究人員對於主要以非結構化文本訓練模型的限制的擔憂。
教育範圍與領域涵蓋
Genesis I與II合併資料集涵蓋19個領域,內容設計符合中學與大學教育水準。科目範圍從基礎數學與物理到應用領域如計量經濟學與機器學習。
每個領域都包含結構化問題、解釋與推理路徑,模擬正式教育中的教學與評估方式。此設計旨在支援需要邏輯一致性與概念深度的預訓練任務。
透過改進方法重生成與擴展內容,QVAC希望提升合成資料中教育內容的表現。
評估與模型表現
根據QVAC引用的內部與獨立評估,基於Genesis II資料訓練的模型在推理密集型任務中表現更佳,包括回答結構化問題、解釋結論與避免模糊或矛盾的回答。
評估結果顯示,失誤分析與選項層推理的結合能產生更一致的輸出。公司並未將資料集定位為獨立解決方案,而是作為進一步訓練與微調的堅實基礎。
預計研究人員將進行更多評估,以促使資料在社群中得到更廣泛應用。
對開放AI研究的影響
如此大規模的開放資料集的發布,可能會影響學術與獨立研究者的模型訓練方式。傳統上,結構化教育資料的存取多限於資金雄厚的組織。
透過提供替代方案,QVAC Genesis II有助於小型模型、在地化訓練與可解釋AI方法的實驗。
此資料集也可能成為未來重視推理品質而非純粹規模的合成資料專案的基準。
在更廣泛AI生態系中的定位
QVAC Genesis II進入一個快速發展、資源日益集中化的AI生態系。許多最先進的模型訓練資料是專有的,難以審查或複製。
開放資料如Genesis II提供透明度與共享進步的可能性,也引發關於開放資源如何與商業AI共存的討論。
來自金融科技與數字資產背景的公司參與,彰顯AI研究正吸引來自傳統科技公司之外的多元產業興趣。
取得方式與未來展望
完整的技術文件《QVAC Genesis II:擴展最大、最高品質多領域教育合成資料集,用於預訓練》已於QVAC研究部落格發布。資料集與相關模型可透過Hugging Face取得。
QVAC表示將持續優化方法並擴展教育內容,並期待研究社群的反饋來塑造未來版本。
持續推動開放基礎建設
透過Genesis II,QVAC強調開放、結構化的訓練資料對建立可靠AI系統的重要性。此發布反映一種信念:智慧應建立在推理與解釋之上,而非僅僅是統計相關。
隨著AI系統越來越多地應用於教育、科學與金融服務(包括金融科技應用),其訓練資料的品質將持續是核心關注點。
目前,擴展的Genesis資料集作為一個具有規模、結構與可及性的開放AI研究重要貢獻,展現出在非專有環境中罕見的水平。