Відкрийте для себе найкращі новини та події у сфері фінтех!
Підписуйтеся на розсилку FinTech Weekly
Читають керівники JP Morgan, Coinbase, Blackrock, Klarna та інші
Значне розширення навчальних даних Open AI
Tether Data випустила нову версію своєї синтетичної освітньої бази даних для штучного інтелекту, що суттєво збільшила обсяг і охоплення відкритих навчальних матеріалів, доступних дослідникам по всьому світу. Дослідницький відділ компанії, QVAC, оголосив, що новий реліз, під назвою QVAC Genesis II, додає 107 мільярдів токенів до попереднього набору даних, довівши загальний обсяг до 148 мільярдів токенів.
Розширена база даних є наразі найбільшою публічно доступною синтетичною освітньою ресурсом, спеціально створеним для попереднього навчання штучного інтелекту. Вона охоплює 19 академічних галузей і спрямована на покращення здатності моделей навчатися логіці, поясненням та прийняттю рішень, а не лише поверхневому розпізнаванню шаблонів.
Оголошення позиціонує реліз як крок до більш прозорого та доступного розвитку штучного інтелекту, оскільки багато передових навчальних наборів даних досі залишаються закритими у приватних системах.
Побудова на основі першого релізу Genesis
QVAC Genesis II базується на роботі, вперше представленій з Genesis I, яка зосереджувалася на створенні валідованого, орієнтованого на освіту синтетичного набору даних, що охоплює основні предмети науки, технологій, інженерії та математики. Цей попередній реліз заклав основу для генерації структурованих навчальних питань, спрямованих на покращення точності логіки.
Новий реліз розширює охоплення ще на десять галузей, включаючи хімію, інформатику, статистику, машинне навчання, астрономію, географію, економетрику та електротехніку. Також він повертається до фізики на рівні коледжу, оновлюючи її за допомогою нової методології для покращення концептуальної ясності.
Разом ці два релізи становлять те, що QVAC називає наймасштабнішим синтетичним освітнім набором даних, доступним для публіки. База даних призначена для використання у попередньому навчанні великих мовних моделей та інших систем штучного інтелекту, що потребують структурованого академічного матеріалу.
Зміна підходу до генерації навчальних даних
У основі Genesis II лежить новий метод генерації даних, який називається Вибіркове Логічне Обґрунтування (Option-Level Reasoning). Цей підхід відрізняється від багатьох існуючих технік синтетичних даних тим, що фокусується не лише на неправильних відповідях, а й на правильних.
Замість того, щоб вважати правильну відповідь кінцевою точкою, цей метод аналізує кожен варіант відповіді у багатовибірковому питанні. Правильні варіанти розбиваються для підкріплення причин їх правильності, тоді як неправильні — досліджуються для виправлення поширених помилок. Така структура дозволяє моделям навчатися причинно-наслідковому мисленню та логіці прийняття рішень, а не просто асоціювати питання з відповідями.
Цей підхід доповнює метод Аналізу Помилок, впроваджений у Genesis I, який зосереджувався на вилученні цінності з помилок моделей. Разом вони формують конвеєр, у якому кожне згенероване питання має навчальну цінність.
Незалежні оцінки, наведені QVAC, свідчать, що моделі, навчені на даних Genesis II, демонструють вищу точність логіки та більш чіткі відповіді, ніж ті, що навчені на попередніх синтетичних наборах даних.
Акцент на розумінні, а не лише на плавності
Більшість сучасних систем навчання штучного інтелекту базується на збиранні дуже великих обсягів тексту, часто зібраного з публічних джерел, для покращення мовної плавності. Мета QVAC у цьому контексті відрізняється. Набори даних Genesis структуровані так, щоб навчити моделі логічно розв’язувати проблеми та чітко пояснювати висновки.
Керівництво компанії зазначає, що їхня мета — перейти від систем навчання, що передбачають ймовірнісне прогнозування тексту, до моделей, що демонструють розуміння основних концепцій. Дизайн набору даних орієнтований на ясність, причинність і логіку, щоб зменшити неоднозначність у вихідних даних моделей.
Цей підхід узгоджується з ширшими дискусіями в дослідженнях штучного інтелекту щодо надійності та пояснюваності, особливо коли системи AI використовуються в освіті, науці та підтримці прийняття рішень.
Відкритий доступ для дослідників і розробників
Як і у випадку з оригінальним набором Genesis, QVAC Genesis II публічно доступний. База даних розповсюджується за ліцензією Creative Commons Attribution–NonCommercial 4.0, що дозволяє дослідникам, академічним установам та незалежним розробникам використовувати та вивчати дані поза межами комерційних цілей.
База даних та пов’язані моделі розміщені на платформі Hugging Face, разом із детальним технічним документом, що описує методологію генерації та результати оцінки. Це відкритий розподіл має на меті знизити бар’єри для дослідників, які не мають доступу до великих приватних наборів даних.
Зберігаючи ліцензію без комерційної мети, QVAC прагне підтримувати академічні та спільнотні дослідження, обмежуючи пряме комерційне використання.
Підтримка децентралізованого розвитку AI
Реліз також відповідає ширшій стратегії Tether Data щодо заохочення децентралізованого розвитку штучного інтелекту. Компанія заявила, що високоякісні навчальні дані не повинні бути обмежені організаціями, що мають доступ до централізованої хмарної інфраструктури.
Зробивши великомасштабні структуровані набори даних відкритими, QVAC прагне сприяти локальному тренуванню, експериментам і розгортанню моделей AI. Такий підхід має підтримувати дослідницькі середовища, де обчислювальні ресурси можуть бути обмеженими, але інтелектуальні внески — значущими.
Акцент на децентралізації відображає зростаючий інтерес до зменшення залежності від кількох домінуючих платформ AI і сприяння більш розподіленій екосистемі досліджень.
Роль Tether у дослідженнях AI
QVAC функціонує як дослідницький відділ Tether Data. Хоча Tether широко відомий своєю роллю у цифрових активів і стабільних монетах, компанія за останні роки розширила свою діяльність у сфері даних і досліджень AI.
Завдяки QVAC Tether Data зосереджена на створенні інфраструктури та ресурсів, що підтримують відкриті дослідження. Набори Genesis є одними з найпомітніших результатів цієї роботи, позиціонуючи компанію у дискусіях щодо відкритого розвитку AI та навчальних даних, орієнтованих на освіту.
Ця робота також відображає зростаюче перетинання фінансових технологій і передових досліджень AI, оскільки фінтех-компанії дедалі більше інвестують у науку про дані та машинне навчання.
Погляд керівництва на реліз
Керівництво компанії охарактеризувало реліз Genesis II як відхід від підходів до навчання, що орієнтовані лише на обсяг. За словами представників Tether, головна мета — навчити системи AI логічно мислити та пояснювати, а не просто генерувати плавні відповіді.
Паоло Ардойно, генеральний директор Tether, підкреслив, що надійний AI має базуватися на розумінні, чому відповіді є правильними. Він зазначив, що відкритий доступ до набору даних відображає переконання, що сильніший і більш пояснюваний AI приносить користь суспільству в цілому.
Ці погляди співзвучні з побоюваннями дослідників щодо обмежень моделей, навчених переважно на неструктурованому тексті.
Освітній спектр і охоплення галузей
Об’єднані набори даних Genesis I і II охоплюють 19 галузей, з контентом, розробленим для рівнів середньої та вищої освіти. Предмети варіюються від базової математики і фізики до прикладних галузей, таких як економетрика і машинне навчання.
Кожна галузь містить структуровані питання, пояснення та логічні шляхи, що імітують процес навчання і оцінювання у формальній освіті. Такий дизайн має підтримувати завдання попереднього навчання, що вимагають логічної послідовності та концептуальної глибини.
Завдяки оновленню та розширенню контенту за допомогою покращених методів, QVAC прагне вдосконалити спосіб представлення освітнього матеріалу у синтетичних наборах даних.
Оцінка та продуктивність моделей
Згідно з внутрішніми та незалежними оцінками, посиланнями від QVAC, моделі, навчені на даних Genesis II, демонструють покращену продуктивність у завданнях, що вимагають логічного мислення. Це включає відповіді на структуровані питання, пояснення висновків і уникнення неоднозначних або суперечливих відповідей.
Результати оцінки свідчать, що поєднання Аналізу Помилок і Вибіркового Логічного Обґрунтування призводить до більш послідовних вихідних даних. Хоча компанія не позиціонує цей набір даних як самостійне рішення, вона вважає його міцною основою для подальшого навчання та доопрацювання.
Очікується, що дослідники проведуть додаткові оцінки, оскільки набір даних ширше використовується у спільноті.
Вплив на відкриті дослідження AI
Випуск такого великого відкритого набору даних може вплинути на підходи академічних і незалежних дослідників до тренування моделей. Доступ до структурованих освітніх даних у такому масштабі раніше був обмежений добре фінансованими організаціями.
Завдяки наданню альтернативи, QVAC Genesis II може підтримати експерименти з меншими моделями, локальним тренуванням і дослідженнями пояснюваного AI.
Цей набір даних також може слугувати еталоном для майбутніх проектів синтетичних даних, що орієнтовані на якість логіки понад кількість.
Позиціонування у ширшій екосистемі AI
QVAC Genesis II входить у швидко розвиваючуся екосистему AI, що характеризується зростанням концентрації ресурсів. Багато найпотужніших моделей навчені на приватних наборах даних, що недоступні для аналізу або відтворення.
Відкриті набори даних, такі як Genesis II, пропонують альтернативу, сприяючи прозорості та спільному прогресу. Водночас вони піднімають питання про те, як відкриті ресурси можуть співіснувати з комерційним розвитком AI.
Залучення компанії, що має корені у фінтехі та цифрових активах, підкреслює, як дослідження AI залучає інтерес з різних галузей поза традиційними технологічними компаніями.
Доступність та подальші кроки
Повна технічна документація на набір даних під назвою “QVAC Genesis II: Розширення найбільшого та найвищої якості багатогалузевого освітнього синтетичного набору даних для попереднього навчання” опублікована у блозі досліджень QVAC. Доступ до набору даних і пов’язаних моделей можна отримати через Hugging Face.
QVAC заявила, що планує продовжувати вдосконалювати свої методи та розширювати освітнє охоплення у майбутніх релізах. Відгуки дослідницької спільноти відіграють важливу роль у формуванні наступних версій.
Подальше просування відкритих основ
З релізом Genesis II QVAC підкреслює свою позицію, що відкриті структуровані навчальні дані є ключовими для створення надійних систем штучного інтелекту. Вони відображають погляд, що інтелект має базуватися на логіці та поясненнях, а не лише на статистичних асоціаціях.
Зі зростанням інтеграції AI у сфери освіти, науки та фінансових послуг, включаючи фінтех, якість навчальних даних залишатиметься центральним питанням.
Поки що розширений набір Genesis є значним внеском у відкриті дослідження AI, пропонуючи масштаб, структуру та доступність на рівні, рідко доступному за межами приватних систем.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Tether розширює дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II
Відкрийте для себе найкращі новини та події у сфері фінтех!
Підписуйтеся на розсилку FinTech Weekly
Читають керівники JP Morgan, Coinbase, Blackrock, Klarna та інші
Значне розширення навчальних даних Open AI
Tether Data випустила нову версію своєї синтетичної освітньої бази даних для штучного інтелекту, що суттєво збільшила обсяг і охоплення відкритих навчальних матеріалів, доступних дослідникам по всьому світу. Дослідницький відділ компанії, QVAC, оголосив, що новий реліз, під назвою QVAC Genesis II, додає 107 мільярдів токенів до попереднього набору даних, довівши загальний обсяг до 148 мільярдів токенів.
Розширена база даних є наразі найбільшою публічно доступною синтетичною освітньою ресурсом, спеціально створеним для попереднього навчання штучного інтелекту. Вона охоплює 19 академічних галузей і спрямована на покращення здатності моделей навчатися логіці, поясненням та прийняттю рішень, а не лише поверхневому розпізнаванню шаблонів.
Оголошення позиціонує реліз як крок до більш прозорого та доступного розвитку штучного інтелекту, оскільки багато передових навчальних наборів даних досі залишаються закритими у приватних системах.
Побудова на основі першого релізу Genesis
QVAC Genesis II базується на роботі, вперше представленій з Genesis I, яка зосереджувалася на створенні валідованого, орієнтованого на освіту синтетичного набору даних, що охоплює основні предмети науки, технологій, інженерії та математики. Цей попередній реліз заклав основу для генерації структурованих навчальних питань, спрямованих на покращення точності логіки.
Новий реліз розширює охоплення ще на десять галузей, включаючи хімію, інформатику, статистику, машинне навчання, астрономію, географію, економетрику та електротехніку. Також він повертається до фізики на рівні коледжу, оновлюючи її за допомогою нової методології для покращення концептуальної ясності.
Разом ці два релізи становлять те, що QVAC називає наймасштабнішим синтетичним освітнім набором даних, доступним для публіки. База даних призначена для використання у попередньому навчанні великих мовних моделей та інших систем штучного інтелекту, що потребують структурованого академічного матеріалу.
Зміна підходу до генерації навчальних даних
У основі Genesis II лежить новий метод генерації даних, який називається Вибіркове Логічне Обґрунтування (Option-Level Reasoning). Цей підхід відрізняється від багатьох існуючих технік синтетичних даних тим, що фокусується не лише на неправильних відповідях, а й на правильних.
Замість того, щоб вважати правильну відповідь кінцевою точкою, цей метод аналізує кожен варіант відповіді у багатовибірковому питанні. Правильні варіанти розбиваються для підкріплення причин їх правильності, тоді як неправильні — досліджуються для виправлення поширених помилок. Така структура дозволяє моделям навчатися причинно-наслідковому мисленню та логіці прийняття рішень, а не просто асоціювати питання з відповідями.
Цей підхід доповнює метод Аналізу Помилок, впроваджений у Genesis I, який зосереджувався на вилученні цінності з помилок моделей. Разом вони формують конвеєр, у якому кожне згенероване питання має навчальну цінність.
Незалежні оцінки, наведені QVAC, свідчать, що моделі, навчені на даних Genesis II, демонструють вищу точність логіки та більш чіткі відповіді, ніж ті, що навчені на попередніх синтетичних наборах даних.
Акцент на розумінні, а не лише на плавності
Більшість сучасних систем навчання штучного інтелекту базується на збиранні дуже великих обсягів тексту, часто зібраного з публічних джерел, для покращення мовної плавності. Мета QVAC у цьому контексті відрізняється. Набори даних Genesis структуровані так, щоб навчити моделі логічно розв’язувати проблеми та чітко пояснювати висновки.
Керівництво компанії зазначає, що їхня мета — перейти від систем навчання, що передбачають ймовірнісне прогнозування тексту, до моделей, що демонструють розуміння основних концепцій. Дизайн набору даних орієнтований на ясність, причинність і логіку, щоб зменшити неоднозначність у вихідних даних моделей.
Цей підхід узгоджується з ширшими дискусіями в дослідженнях штучного інтелекту щодо надійності та пояснюваності, особливо коли системи AI використовуються в освіті, науці та підтримці прийняття рішень.
Відкритий доступ для дослідників і розробників
Як і у випадку з оригінальним набором Genesis, QVAC Genesis II публічно доступний. База даних розповсюджується за ліцензією Creative Commons Attribution–NonCommercial 4.0, що дозволяє дослідникам, академічним установам та незалежним розробникам використовувати та вивчати дані поза межами комерційних цілей.
База даних та пов’язані моделі розміщені на платформі Hugging Face, разом із детальним технічним документом, що описує методологію генерації та результати оцінки. Це відкритий розподіл має на меті знизити бар’єри для дослідників, які не мають доступу до великих приватних наборів даних.
Зберігаючи ліцензію без комерційної мети, QVAC прагне підтримувати академічні та спільнотні дослідження, обмежуючи пряме комерційне використання.
Підтримка децентралізованого розвитку AI
Реліз також відповідає ширшій стратегії Tether Data щодо заохочення децентралізованого розвитку штучного інтелекту. Компанія заявила, що високоякісні навчальні дані не повинні бути обмежені організаціями, що мають доступ до централізованої хмарної інфраструктури.
Зробивши великомасштабні структуровані набори даних відкритими, QVAC прагне сприяти локальному тренуванню, експериментам і розгортанню моделей AI. Такий підхід має підтримувати дослідницькі середовища, де обчислювальні ресурси можуть бути обмеженими, але інтелектуальні внески — значущими.
Акцент на децентралізації відображає зростаючий інтерес до зменшення залежності від кількох домінуючих платформ AI і сприяння більш розподіленій екосистемі досліджень.
Роль Tether у дослідженнях AI
QVAC функціонує як дослідницький відділ Tether Data. Хоча Tether широко відомий своєю роллю у цифрових активів і стабільних монетах, компанія за останні роки розширила свою діяльність у сфері даних і досліджень AI.
Завдяки QVAC Tether Data зосереджена на створенні інфраструктури та ресурсів, що підтримують відкриті дослідження. Набори Genesis є одними з найпомітніших результатів цієї роботи, позиціонуючи компанію у дискусіях щодо відкритого розвитку AI та навчальних даних, орієнтованих на освіту.
Ця робота також відображає зростаюче перетинання фінансових технологій і передових досліджень AI, оскільки фінтех-компанії дедалі більше інвестують у науку про дані та машинне навчання.
Погляд керівництва на реліз
Керівництво компанії охарактеризувало реліз Genesis II як відхід від підходів до навчання, що орієнтовані лише на обсяг. За словами представників Tether, головна мета — навчити системи AI логічно мислити та пояснювати, а не просто генерувати плавні відповіді.
Паоло Ардойно, генеральний директор Tether, підкреслив, що надійний AI має базуватися на розумінні, чому відповіді є правильними. Він зазначив, що відкритий доступ до набору даних відображає переконання, що сильніший і більш пояснюваний AI приносить користь суспільству в цілому.
Ці погляди співзвучні з побоюваннями дослідників щодо обмежень моделей, навчених переважно на неструктурованому тексті.
Освітній спектр і охоплення галузей
Об’єднані набори даних Genesis I і II охоплюють 19 галузей, з контентом, розробленим для рівнів середньої та вищої освіти. Предмети варіюються від базової математики і фізики до прикладних галузей, таких як економетрика і машинне навчання.
Кожна галузь містить структуровані питання, пояснення та логічні шляхи, що імітують процес навчання і оцінювання у формальній освіті. Такий дизайн має підтримувати завдання попереднього навчання, що вимагають логічної послідовності та концептуальної глибини.
Завдяки оновленню та розширенню контенту за допомогою покращених методів, QVAC прагне вдосконалити спосіб представлення освітнього матеріалу у синтетичних наборах даних.
Оцінка та продуктивність моделей
Згідно з внутрішніми та незалежними оцінками, посиланнями від QVAC, моделі, навчені на даних Genesis II, демонструють покращену продуктивність у завданнях, що вимагають логічного мислення. Це включає відповіді на структуровані питання, пояснення висновків і уникнення неоднозначних або суперечливих відповідей.
Результати оцінки свідчать, що поєднання Аналізу Помилок і Вибіркового Логічного Обґрунтування призводить до більш послідовних вихідних даних. Хоча компанія не позиціонує цей набір даних як самостійне рішення, вона вважає його міцною основою для подальшого навчання та доопрацювання.
Очікується, що дослідники проведуть додаткові оцінки, оскільки набір даних ширше використовується у спільноті.
Вплив на відкриті дослідження AI
Випуск такого великого відкритого набору даних може вплинути на підходи академічних і незалежних дослідників до тренування моделей. Доступ до структурованих освітніх даних у такому масштабі раніше був обмежений добре фінансованими організаціями.
Завдяки наданню альтернативи, QVAC Genesis II може підтримати експерименти з меншими моделями, локальним тренуванням і дослідженнями пояснюваного AI.
Цей набір даних також може слугувати еталоном для майбутніх проектів синтетичних даних, що орієнтовані на якість логіки понад кількість.
Позиціонування у ширшій екосистемі AI
QVAC Genesis II входить у швидко розвиваючуся екосистему AI, що характеризується зростанням концентрації ресурсів. Багато найпотужніших моделей навчені на приватних наборах даних, що недоступні для аналізу або відтворення.
Відкриті набори даних, такі як Genesis II, пропонують альтернативу, сприяючи прозорості та спільному прогресу. Водночас вони піднімають питання про те, як відкриті ресурси можуть співіснувати з комерційним розвитком AI.
Залучення компанії, що має корені у фінтехі та цифрових активах, підкреслює, як дослідження AI залучає інтерес з різних галузей поза традиційними технологічними компаніями.
Доступність та подальші кроки
Повна технічна документація на набір даних під назвою “QVAC Genesis II: Розширення найбільшого та найвищої якості багатогалузевого освітнього синтетичного набору даних для попереднього навчання” опублікована у блозі досліджень QVAC. Доступ до набору даних і пов’язаних моделей можна отримати через Hugging Face.
QVAC заявила, що планує продовжувати вдосконалювати свої методи та розширювати освітнє охоплення у майбутніх релізах. Відгуки дослідницької спільноти відіграють важливу роль у формуванні наступних версій.
Подальше просування відкритих основ
З релізом Genesis II QVAC підкреслює свою позицію, що відкриті структуровані навчальні дані є ключовими для створення надійних систем штучного інтелекту. Вони відображають погляд, що інтелект має базуватися на логіці та поясненнях, а не лише на статистичних асоціаціях.
Зі зростанням інтеграції AI у сфери освіти, науки та фінансових послуг, включаючи фінтех, якість навчальних даних залишатиметься центральним питанням.
Поки що розширений набір Genesis є значним внеском у відкриті дослідження AI, пропонуючи масштаб, структуру та доступність на рівні, рідко доступному за межами приватних систем.