Откройте для себя лучшие новости и события в финтехе!
Подпишитесь на рассылку FinTech Weekly
Читают руководители JP Morgan, Coinbase, Blackrock, Klarna и других компаний
Значительное расширение обучающих данных Open AI
Данные Tether выпустили новую версию своего синтетического образовательного набора данных для искусственного интеллекта, значительно увеличив объем и охват открытых учебных материалов, доступных исследователям по всему миру. Отдел исследований ИИ компании, QVAC, объявил, что новая версия, названная QVAC Genesis II, добавляет 107 миллиардов токенов к предыдущему набору данных, доведя его общий объем до 148 миллиардов токенов.
Расширенный набор данных стал крупнейшим публичным синтетическим образовательным ресурсом, специально предназначенным для предварительной подготовки ИИ. Он охватывает 19 академических областей и предназначен для улучшения обучения моделей рассуждению, объяснению и принятию решений, а не поверхностному распознаванию шаблонов.
Объявление позиционирует выпуск как шаг к более прозрачной и доступной разработке ИИ в то время, когда многие передовые обучающие наборы данных остаются закрытыми внутри проприетарных систем.
Развитие на основе первого релиза Genesis
QVAC Genesis II основывается на работе, впервые представленой с Genesis I, которая сосредоточена на создании проверенного синтетического набора данных, ориентированного на образование, охватывающего основные предметы науки, технологий, инженерии и математики. Этот ранний релиз заложил основу для генерации структурированных учебных вопросов, направленных на повышение точности рассуждений.
Новый релиз расширяет охват еще на десять областей, включая химию, информатику, статистику, машинное обучение, астрономию, географию, эконометрию и электротехнику. Также он возвращается к содержанию по физике на уровне колледжа, перерабатывая его с использованием обновленной методологии, предназначенной для повышения концептуальной ясности.
Вместе эти два релиза образуют то, что QVAC описывает как самый обширный синтетический образовательный набор данных, когда-либо доступный публике. Он предназначен для использования в предварительной подготовке больших языковых моделей и других систем ИИ, требующих структурированный академический материал.
Сдвиг в методах генерации обучающих данных
В основе Genesis II лежит новый метод генерации данных, называемый Reasoning на уровне вариантов ответов. Этот подход отличается от многих существующих методов синтетических данных тем, что фокусируется не только на неправильных ответах, но и на правильных.
Вместо того чтобы считать правильный ответ конечной точкой, метод анализирует все варианты ответов в вопросе с несколькими вариантами. Правильные ответы разбираются, чтобы усилить понимание, почему они правильные, а неправильные — чтобы устранить распространенные заблуждения. Такая структура позволяет моделям учиться причинному рассуждению и логике принятия решений, а не просто ассоциировать вопросы с результатами.
Этот подход дополняет метод анализа ошибок, введенный в Genesis I, который сосредоточен на извлечении ценности из ошибок модели. Вместе эти два метода образуют цепочку, в которой каждый сгенерированный вопрос предназначен для внесения обучающей ценности.
Независимые оценки, цитируемые QVAC, показывают, что модели, обученные на данных Genesis II, демонстрируют более высокую точность рассуждений и дают более ясные ответы, чем модели, обученные на ранних синтетических наборах данных.
Акцент на понимании, а не на беглости
Большая часть текущей экосистемы обучения ИИ основывается на сборе очень больших объемов текста, часто скрапленных из публичных источников, для повышения беглости языка. Заявленная цель QVAC отличается акцентом. Наборы данных Genesis структурированы так, чтобы обучать модели рассуждению и объяснению выводов ясно и понятно.
Руководство компании указывает, что их намерение — перейти от систем обучения, предсказывающих вероятные последовательности текста, к моделям, демонстрирующим понимание основных концепций. Дизайн набора данных ориентирован на ясность, причинность и логику, чтобы снизить неоднозначность в выводах модели.
Этот подход соответствует более широким дискуссиям в области исследований ИИ о надежности и объяснимости, особенно при использовании ИИ в образовании, науке и поддержке принятия решений.
Открытый доступ для исследователей и разработчиков
Как и в случае с оригинальным набором Genesis, QVAC Genesis II выпускается открыто. Набор данных доступен по лицензии Creative Commons Attribution–NonCommercial 4.0, что позволяет исследователям, академическим учреждениям и независимым разработчикам использовать и изучать данные вне коммерческих целей.
Набор данных и связанные модели размещены на платформе Hugging Face, вместе с подробной технической статьей, описывающей методологию генерации и результаты оценки. Такое открытое распространение призвано снизить барьеры для исследователей, не имеющих доступа к крупным проприетарным наборам данных.
Поддерживая некоммерческую лицензию, QVAC стремится поддерживать академические и сообщественные исследования, ограничивая прямую коммерческую эксплуатацию.
Поддержка децентрализованной разработки ИИ
Выпуск также вписывается в более широкую стратегию Tether Data по стимулированию децентрализованной разработки ИИ. Компания заявила, что качественные обучающие данные не должны быть доступны только организациям с централизованной облачной инфраструктурой.
Делая крупномасштабные структурированные наборы данных публичными, QVAC стремится обеспечить возможность локальной тренировки, экспериментов и развертывания моделей ИИ. Такой подход предназначен для поддержки исследовательских сред, где вычислительные ресурсы могут быть ограничены, но интеллектуальный вклад важен.
Акцент на децентрализации отражает растущий интерес к снижению зависимости от нескольких доминирующих платформ ИИ и развитию более распределенной исследовательской экосистемы.
Роль Tether в исследованиях ИИ
QVAC функционирует как отдел исследований ИИ компании Tether Data. Хотя Tether широко известен своей ролью в цифровых активах и стейблкоинах, в последние годы компания расширила свою деятельность в области данных и исследований ИИ.
Через QVAC Tether Data сосредоточена на создании инфраструктуры и ресурсов, поддерживающих открытые исследования. Наборы данных Genesis — один из наиболее заметных результатов этой работы, позиционируя компанию в дискуссиях о развитии открытого ИИ и обучающих данных, ориентированных на образование.
Эта деятельность также отражает растущее пересечение финтех-компаний и передовых исследований ИИ, поскольку финансовые технологические фирмы все активнее инвестируют в Data Science и машинное обучение.
Мнение руководства о релизе
Руководство компании охарактеризовало выпуск Genesis II как отход от подходов к обучению, ориентированных только на объем данных. Согласно заявлениям руководства Tether, основной акцент — научить системы ИИ рассуждать и объяснять, а не просто генерировать беглые ответы.
Пауоло Ардойно, исполнительный директор Tether, подчеркнул, что надежный ИИ должен основываться на понимании, почему ответы правильные. Он отметил, что открытый доступ к набору данных отражает убеждение, что более сильный и объяснимый ИИ приносит пользу всему обществу.
Эти взгляды перекликаются с озабоченностью исследователей по поводу ограничений моделей, обученных преимущественно на неструктурированном тексте.
Образовательный охват и области
Объединенные наборы данных Genesis I и II охватывают 19 областей, содержание которых рассчитано на уровень средней и высшей школы. Темы варьируются от базовой математики и физики до прикладных дисциплин, таких как эконометрика и машинное обучение.
Каждая область включает структурированные вопросы, объяснения и логические цепочки, предназначенные для имитации методов преподавания и оценки в формальном образовании. Такой дизайн поддерживает задачи предварительной подготовки, требующие логической последовательности и концептуальной глубины.
Путем переработки и расширения контента с использованием улучшенных методов QVAC стремится усовершенствовать представление образовательных материалов в синтетических наборах данных.
Оценка и эффективность моделей
Согласно внутренним и независимым оценкам, упомянутым QVAC, модели, обученные на данных Genesis II, показывают улучшенные результаты в задачах, требующих рассуждений. В их числе — ответы на структурированные вопросы, объяснение выводов и избегание двусмысленных или противоречивых ответов.
Результаты оценки свидетельствуют, что сочетание методов анализа ошибок и Reasoning на уровне вариантов ответов приводит к более последовательным выводам. Хотя компания не позиционирует этот набор данных как самостоятельное решение, она представляет его как прочную основу для дальнейшего обучения и доработки.
Ожидается, что исследователи проведут дополнительные оценки по мере широкого использования набора данных в сообществе.
Влияние на открытые исследования ИИ
Выпуск такого крупного открытого набора данных может повлиять на подходы академических и независимых исследователей к обучению моделей. Доступ к структурированным образовательным данным в таком масштабе традиционно был ограничен хорошо финансируемыми организациями.
Предоставляя альтернативу, QVAC Genesis II может поддержать эксперименты с меньшими моделями, локальную тренировку и исследования объяснимого ИИ.
Этот набор данных также может стать эталоном для будущих проектов синтетических данных, ориентированных на качество рассуждений, а не только на размер.
Позиционирование в экосистеме ИИ
QVAC Genesis II входит в быстро развивающуюся экосистему ИИ, характеризующуюся концентрацией ресурсов. Многие самые мощные модели обучаются на проприетарных наборах данных, недоступных для проверки или воспроизведения.
Открытые наборы данных, такие как Genesis II, предоставляют возможность прозрачности и совместного прогресса. Они также поднимают вопросы о том, как открытые ресурсы могут сосуществовать с коммерческим развитием ИИ.
Участие компании, связанной с финтехом и цифровыми активами, подчеркивает, что исследования ИИ привлекают интерес различных отраслей помимо традиционных технологических компаний.
Доступность и дальнейшие шаги
Полная техническая документация по набору данных под названием “QVAC Genesis II: расширение крупнейшего и самого высокого качества мультидоменного образовательного синтетического набора данных для предварительной подготовки” опубликована в блоге исследований QVAC. Доступ к набору данных и связанным моделям осуществляется через Hugging Face.
QVAC планирует продолжать совершенствовать свои методы и расширять образовательное покрытие в будущих релизах. Обратная связь от исследовательского сообщества будет играть важную роль в формировании следующих версий.
Непрерывное развитие открытых основ
С выпуском Genesis II QVAC подтверждает свою позицию, что открытые структурированные обучающие данные необходимы для создания надежных систем ИИ. Этот релиз отражает взгляд, что интеллект должен основываться на рассуждении и объяснении, а не только на статистических связях.
По мере интеграции систем ИИ в образование, науку и финансовые услуги, включая финтех-приложения, качество их обучающих данных останется важнейшей задачей.
На данный момент расширенный набор данных Genesis является заметным вкладом в открытые исследования ИИ, предлагая масштаб, структуру и доступность, которые редко встречаются вне проприетарных систем.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Tether расширяет обучающие данные для Open AI с выпуском набора данных QVAC Genesis II
Откройте для себя лучшие новости и события в финтехе!
Подпишитесь на рассылку FinTech Weekly
Читают руководители JP Morgan, Coinbase, Blackrock, Klarna и других компаний
Значительное расширение обучающих данных Open AI
Данные Tether выпустили новую версию своего синтетического образовательного набора данных для искусственного интеллекта, значительно увеличив объем и охват открытых учебных материалов, доступных исследователям по всему миру. Отдел исследований ИИ компании, QVAC, объявил, что новая версия, названная QVAC Genesis II, добавляет 107 миллиардов токенов к предыдущему набору данных, доведя его общий объем до 148 миллиардов токенов.
Расширенный набор данных стал крупнейшим публичным синтетическим образовательным ресурсом, специально предназначенным для предварительной подготовки ИИ. Он охватывает 19 академических областей и предназначен для улучшения обучения моделей рассуждению, объяснению и принятию решений, а не поверхностному распознаванию шаблонов.
Объявление позиционирует выпуск как шаг к более прозрачной и доступной разработке ИИ в то время, когда многие передовые обучающие наборы данных остаются закрытыми внутри проприетарных систем.
Развитие на основе первого релиза Genesis
QVAC Genesis II основывается на работе, впервые представленой с Genesis I, которая сосредоточена на создании проверенного синтетического набора данных, ориентированного на образование, охватывающего основные предметы науки, технологий, инженерии и математики. Этот ранний релиз заложил основу для генерации структурированных учебных вопросов, направленных на повышение точности рассуждений.
Новый релиз расширяет охват еще на десять областей, включая химию, информатику, статистику, машинное обучение, астрономию, географию, эконометрию и электротехнику. Также он возвращается к содержанию по физике на уровне колледжа, перерабатывая его с использованием обновленной методологии, предназначенной для повышения концептуальной ясности.
Вместе эти два релиза образуют то, что QVAC описывает как самый обширный синтетический образовательный набор данных, когда-либо доступный публике. Он предназначен для использования в предварительной подготовке больших языковых моделей и других систем ИИ, требующих структурированный академический материал.
Сдвиг в методах генерации обучающих данных
В основе Genesis II лежит новый метод генерации данных, называемый Reasoning на уровне вариантов ответов. Этот подход отличается от многих существующих методов синтетических данных тем, что фокусируется не только на неправильных ответах, но и на правильных.
Вместо того чтобы считать правильный ответ конечной точкой, метод анализирует все варианты ответов в вопросе с несколькими вариантами. Правильные ответы разбираются, чтобы усилить понимание, почему они правильные, а неправильные — чтобы устранить распространенные заблуждения. Такая структура позволяет моделям учиться причинному рассуждению и логике принятия решений, а не просто ассоциировать вопросы с результатами.
Этот подход дополняет метод анализа ошибок, введенный в Genesis I, который сосредоточен на извлечении ценности из ошибок модели. Вместе эти два метода образуют цепочку, в которой каждый сгенерированный вопрос предназначен для внесения обучающей ценности.
Независимые оценки, цитируемые QVAC, показывают, что модели, обученные на данных Genesis II, демонстрируют более высокую точность рассуждений и дают более ясные ответы, чем модели, обученные на ранних синтетических наборах данных.
Акцент на понимании, а не на беглости
Большая часть текущей экосистемы обучения ИИ основывается на сборе очень больших объемов текста, часто скрапленных из публичных источников, для повышения беглости языка. Заявленная цель QVAC отличается акцентом. Наборы данных Genesis структурированы так, чтобы обучать модели рассуждению и объяснению выводов ясно и понятно.
Руководство компании указывает, что их намерение — перейти от систем обучения, предсказывающих вероятные последовательности текста, к моделям, демонстрирующим понимание основных концепций. Дизайн набора данных ориентирован на ясность, причинность и логику, чтобы снизить неоднозначность в выводах модели.
Этот подход соответствует более широким дискуссиям в области исследований ИИ о надежности и объяснимости, особенно при использовании ИИ в образовании, науке и поддержке принятия решений.
Открытый доступ для исследователей и разработчиков
Как и в случае с оригинальным набором Genesis, QVAC Genesis II выпускается открыто. Набор данных доступен по лицензии Creative Commons Attribution–NonCommercial 4.0, что позволяет исследователям, академическим учреждениям и независимым разработчикам использовать и изучать данные вне коммерческих целей.
Набор данных и связанные модели размещены на платформе Hugging Face, вместе с подробной технической статьей, описывающей методологию генерации и результаты оценки. Такое открытое распространение призвано снизить барьеры для исследователей, не имеющих доступа к крупным проприетарным наборам данных.
Поддерживая некоммерческую лицензию, QVAC стремится поддерживать академические и сообщественные исследования, ограничивая прямую коммерческую эксплуатацию.
Поддержка децентрализованной разработки ИИ
Выпуск также вписывается в более широкую стратегию Tether Data по стимулированию децентрализованной разработки ИИ. Компания заявила, что качественные обучающие данные не должны быть доступны только организациям с централизованной облачной инфраструктурой.
Делая крупномасштабные структурированные наборы данных публичными, QVAC стремится обеспечить возможность локальной тренировки, экспериментов и развертывания моделей ИИ. Такой подход предназначен для поддержки исследовательских сред, где вычислительные ресурсы могут быть ограничены, но интеллектуальный вклад важен.
Акцент на децентрализации отражает растущий интерес к снижению зависимости от нескольких доминирующих платформ ИИ и развитию более распределенной исследовательской экосистемы.
Роль Tether в исследованиях ИИ
QVAC функционирует как отдел исследований ИИ компании Tether Data. Хотя Tether широко известен своей ролью в цифровых активах и стейблкоинах, в последние годы компания расширила свою деятельность в области данных и исследований ИИ.
Через QVAC Tether Data сосредоточена на создании инфраструктуры и ресурсов, поддерживающих открытые исследования. Наборы данных Genesis — один из наиболее заметных результатов этой работы, позиционируя компанию в дискуссиях о развитии открытого ИИ и обучающих данных, ориентированных на образование.
Эта деятельность также отражает растущее пересечение финтех-компаний и передовых исследований ИИ, поскольку финансовые технологические фирмы все активнее инвестируют в Data Science и машинное обучение.
Мнение руководства о релизе
Руководство компании охарактеризовало выпуск Genesis II как отход от подходов к обучению, ориентированных только на объем данных. Согласно заявлениям руководства Tether, основной акцент — научить системы ИИ рассуждать и объяснять, а не просто генерировать беглые ответы.
Пауоло Ардойно, исполнительный директор Tether, подчеркнул, что надежный ИИ должен основываться на понимании, почему ответы правильные. Он отметил, что открытый доступ к набору данных отражает убеждение, что более сильный и объяснимый ИИ приносит пользу всему обществу.
Эти взгляды перекликаются с озабоченностью исследователей по поводу ограничений моделей, обученных преимущественно на неструктурированном тексте.
Образовательный охват и области
Объединенные наборы данных Genesis I и II охватывают 19 областей, содержание которых рассчитано на уровень средней и высшей школы. Темы варьируются от базовой математики и физики до прикладных дисциплин, таких как эконометрика и машинное обучение.
Каждая область включает структурированные вопросы, объяснения и логические цепочки, предназначенные для имитации методов преподавания и оценки в формальном образовании. Такой дизайн поддерживает задачи предварительной подготовки, требующие логической последовательности и концептуальной глубины.
Путем переработки и расширения контента с использованием улучшенных методов QVAC стремится усовершенствовать представление образовательных материалов в синтетических наборах данных.
Оценка и эффективность моделей
Согласно внутренним и независимым оценкам, упомянутым QVAC, модели, обученные на данных Genesis II, показывают улучшенные результаты в задачах, требующих рассуждений. В их числе — ответы на структурированные вопросы, объяснение выводов и избегание двусмысленных или противоречивых ответов.
Результаты оценки свидетельствуют, что сочетание методов анализа ошибок и Reasoning на уровне вариантов ответов приводит к более последовательным выводам. Хотя компания не позиционирует этот набор данных как самостоятельное решение, она представляет его как прочную основу для дальнейшего обучения и доработки.
Ожидается, что исследователи проведут дополнительные оценки по мере широкого использования набора данных в сообществе.
Влияние на открытые исследования ИИ
Выпуск такого крупного открытого набора данных может повлиять на подходы академических и независимых исследователей к обучению моделей. Доступ к структурированным образовательным данным в таком масштабе традиционно был ограничен хорошо финансируемыми организациями.
Предоставляя альтернативу, QVAC Genesis II может поддержать эксперименты с меньшими моделями, локальную тренировку и исследования объяснимого ИИ.
Этот набор данных также может стать эталоном для будущих проектов синтетических данных, ориентированных на качество рассуждений, а не только на размер.
Позиционирование в экосистеме ИИ
QVAC Genesis II входит в быстро развивающуюся экосистему ИИ, характеризующуюся концентрацией ресурсов. Многие самые мощные модели обучаются на проприетарных наборах данных, недоступных для проверки или воспроизведения.
Открытые наборы данных, такие как Genesis II, предоставляют возможность прозрачности и совместного прогресса. Они также поднимают вопросы о том, как открытые ресурсы могут сосуществовать с коммерческим развитием ИИ.
Участие компании, связанной с финтехом и цифровыми активами, подчеркивает, что исследования ИИ привлекают интерес различных отраслей помимо традиционных технологических компаний.
Доступность и дальнейшие шаги
Полная техническая документация по набору данных под названием “QVAC Genesis II: расширение крупнейшего и самого высокого качества мультидоменного образовательного синтетического набора данных для предварительной подготовки” опубликована в блоге исследований QVAC. Доступ к набору данных и связанным моделям осуществляется через Hugging Face.
QVAC планирует продолжать совершенствовать свои методы и расширять образовательное покрытие в будущих релизах. Обратная связь от исследовательского сообщества будет играть важную роль в формировании следующих версий.
Непрерывное развитие открытых основ
С выпуском Genesis II QVAC подтверждает свою позицию, что открытые структурированные обучающие данные необходимы для создания надежных систем ИИ. Этот релиз отражает взгляд, что интеллект должен основываться на рассуждении и объяснении, а не только на статистических связях.
По мере интеграции систем ИИ в образование, науку и финансовые услуги, включая финтех-приложения, качество их обучающих данных останется важнейшей задачей.
На данный момент расширенный набор данных Genesis является заметным вкладом в открытые исследования ИИ, предлагая масштаб, структуру и доступность, которые редко встречаются вне проприетарных систем.