Tether 扩展 Open AI 训练数据,发布 QVAC Genesis II 数据集


发现顶级金融科技新闻与活动!

订阅金融科技周刊的新闻通讯

由摩根大通、Coinbase、黑石、Klarna 等高管阅读


Open AI 训练数据的重大扩展

泰特数据发布了其人工智能合成教育数据集的新版本,显著增加了全球研究人员可用的开放训练材料的数量和范围。公司旗下的 AI 研究部门 QVAC 宣布,名为 QVAC Genesis II 的新版本在原有数据集基础上增加了 1070 亿个标记,总规模达到 1480 亿个标记。

扩展后的数据集现已成为最大规模的公开可用、专为 AI 预训练设计的合成教育资源。它涵盖 19 个学术领域,旨在改善模型的推理、解释和决策能力,而非仅仅识别表面模式。

该公告将此次发布定位为推动更透明、更易获取的 AI 发展的一步,当前许多先进的训练数据集仍被封闭在专有系统中。

基于 Genesis 首次发布的基础

QVAC Genesis II 在 Genesis I 的基础上进行了扩展,后者专注于创建经过验证、以教育为中心的合成数据集,涵盖核心科学、技术、工程和数学科目。早期版本建立了生成结构化训练题目的框架,旨在提升推理准确性。

此次新版本将覆盖范围扩展到化学、计算机科学、统计学、机器学习、天文学、地理学、计量经济学和电气工程等十个领域,还重新生成了大学物理内容,采用更新的方法以提高清晰度。

两次发布共同构成了 QVAC 所称的“迄今为止最全面的合成教育数据集”。该数据集旨在用于预训练大型语言模型及其他需要结构化学术资料的 AI 系统。

训练数据生成方式的变革

Genesis II 的核心是一种称为“选项级推理”的新型数据生成方法。该方法不同于许多现有的合成数据技术,不仅关注错误答案,还关注正确答案。

它不将正确答案视为终点,而是分析多项选择题中的每个选项。正确选项被拆解以强化其正确性,而错误选项则被审查以纠正常见误解。这种结构使模型能够学习因果推理和决策逻辑,而非仅仅将问题与结果关联。

该方法补充了 Genesis I 中引入的“故障分析”技术,后者侧重于从模型错误中提取价值。两者结合形成一个流程,每个生成的问题都旨在提供教学价值。

QVAC 引用的独立评估显示,基于 Genesis II 数据训练的模型在推理准确性方面表现更佳,答案也更清晰。

强调理解而非流畅

当前的 AI 训练生态系统大量依赖从公共资源抓取大量文本,以提升语言流畅性。QVAC 的目标则不同,强调模型如何推理和清楚地解释结论。

公司领导表示,目标是超越仅预测文本序列的训练系统,转向理解底层概念的模型。数据集设计优先考虑清晰性、因果关系和逻辑性,旨在减少模型输出中的歧义。

这一策略符合 AI 研究中关于可靠性和可解释性的更广泛讨论,尤其是在教育、科学和决策支持等场景中。

对研究者和开发者的开放访问

与原始 Genesis 数据集一样,QVAC Genesis II 也将公开发布。该数据集采用知识共享署名-非商业性使用 4.0 许可证,允许研究人员、学术机构和独立开发者在非商业环境中使用和研究。

数据集及相关模型托管在 Hugging Face 平台上,并附有详细的技术论文,介绍生成方法和评估结果。这一开放发布旨在降低没有大型专有数据集访问权限的研究者的门槛。

通过保持非商业许可,QVAC 旨在支持学术和社区驱动的研究,同时限制直接商业利用。

支持去中心化的 AI 发展

此次发布也符合泰特数据推动去中心化 AI 发展的整体战略。公司表示,高质量的训练数据不应仅限于拥有集中式云基础设施的组织。

通过公开大型结构化数据集,QVAC 希望促进本地训练、试验和部署 AI 模型。这一做法旨在支持计算资源有限但智力贡献仍然重要的研究环境。

强调去中心化反映出减少对少数主导平台依赖、推动更分散研究生态的日益增长的兴趣。

泰特在 AI 研究中的角色

QVAC 作为泰特数据的 AI 研究部门运营。虽然泰特以其在数字资产和稳定币领域的角色广为人知,但近年来也扩展到数据和 AI 研究。

通过 QVAC,泰特数据专注于构建支持开放研究的基础设施和资源。Genesis 数据集是其努力的代表性成果之一,彰显公司在开放 AI 发展和教育导向训练数据方面的参与。

这也反映了金融科技公司与先进 AI 研究日益融合的趋势,金融科技企业不断加大在数据科学和机器学习方面的投入。

领导层对发布的看法

公司领导将 Genesis II 的发布视为远离仅以数量为导向的训练方法的转变。泰特高管强调,AI 系统应学会推理和解释,而非仅仅生成流畅的回答。

泰特首席执行官 Paolo Ardoino 表示,可靠的 AI 应建立在理解答案为何正确的基础上。他认为,公开提供数据集体现了相信更强大、更具可解释性的 AI 能惠及社会的信念。

这些观点呼应了研究人员对主要基于非结构化文本训练模型局限性的担忧。

教育范围与学科覆盖

Genesis I 和 II 两个数据集共涵盖 19 个领域,内容设计符合中学和高等教育水平。科目包括基础数学、物理,以及应用领域如计量经济学和机器学习。

每个领域都包含结构化的问题、解释和推理路径,旨在模拟正式教育中的教学和评估方式。这一设计支持需要逻辑一致性和概念深度的预训练任务。

通过采用改进的方法重新生成和扩展内容,QVAC 旨在优化合成数据集中教育材料的表现。

评估与模型表现

根据 QVAC 引用的内部和独立评估,基于 Genesis II 数据训练的模型在推理密集型任务中表现更佳,包括回答结构化问题、解释结论以及避免模棱两可或矛盾的回答。

评估结果显示,故障分析与选项级推理的结合能带来更一致的输出。虽然公司未将该数据集定位为单一解决方案,但其被视为进一步训练和微调的坚实基础。

预计研究人员将在社区更广泛使用该数据集后,进行更多评估。

对开放式 AI 研究的影响

如此大规模的开源数据集的发布,可能会影响学术和独立研究者的模型训练方式。以往,获得结构化教育数据的途径有限,主要由资金雄厚的机构掌控。

通过提供替代方案,QVAC Genesis II 有望支持小型模型的试验、本地训练以及可解释 AI 方法的研究。

该数据集也可能成为未来强调推理质量而非规模的合成数据项目的基准。

在更广泛 AI 生态中的定位

QVAC Genesis II 进入一个快速发展、资源集中度不断提高的 AI 生态系统。许多最强大的模型都基于专有数据集,难以审查或复制。

开源数据集如 Genesis II 提供了透明度和共享进步的可能性,也引发了关于开源资源如何与商业 AI 发展共存的讨论。

一家根植于金融科技和数字资产的公司参与其中,彰显了 AI 研究正吸引来自传统科技之外的多行业关注。

可用性与未来计划

“QVAC Genesis II:扩展最大、最高质量多领域教育合成数据集用于预训练” 的完整技术文档已在 QVAC 研究博客上发布。通过 Hugging Face 平台可以访问数据集和相关模型。

QVAC 表示将继续优化方法,扩大教育内容覆盖范围。研究社区的反馈将对后续版本的改进起到重要作用。

持续推动开放基础

通过 Genesis II,QVAC 重申了开放、结构化训练数据对于构建可靠 AI 系统的重要性。该发布反映了一个观点:智能应建立在推理和解释之上,而非仅仅统计关联。

随着 AI 系统在教育、科学和金融服务(包括金融科技应用)中的应用日益普及,其训练数据的质量将始终是核心关注点。

目前,扩展的 Genesis 数据集作为规模、结构和可访问性兼备的开源 AI 研究的重要贡献,值得关注。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)