Fireworks AI запустила попередній перегляд тренувальної платформи, яка підтримує повне параметричне тренування з трильйонами параметрів

BlockBeatNews

За моніторингом 1M AI News, компанія з інфраструктури для AI-виводу Fireworks AI представила попередню версію Fireworks Training, розширившися з чистої платформи для виводу до єдиного середовища для навчання й розгортання. Fireworks AI заснувала Джолін (Lin Qiao), колишня інженерка з Meta, яка брала участь у створенні PyTorch. Наразі оцінка компанії становить 4 млрд доларів США, а кількість токенів, оброблених за день, досягає 15 трильйонів.

Платформа пропонує три рівні:

  1. Training Agent: для продуктових команд без базової інфраструктури ML; описуєте завдання й завантажуєте дані — і можна виконати весь процес від навчання до розгортання, наразі підтримується лише LoRA
  2. Managed Training: для ML-інженерів; підтримує SFT, DPO та fine-tuning із підкріпленням, включно з повнопараметричним тренуванням
  3. Training API: для дослідницьких команд; дає змогу налаштовувати функції втрат і цикли тренування, підтримує такі алгоритми, як GRPO, DAPO тощо

Масштаб повнопараметричного тренування — від Qwen3 8B на одному вузлі до Kimi K2.5 (на трильйони параметрів) на 64 блоках NVIDIA B200.

У виробничих клієнтів Fireworks AI для виводу — інструменти для програмування з AI Cursor, Vercel і Genspark — уже виконали на цій платформі тренування з підкріпленням на передовому рівні. Vercel для свого продукту з генерації коду v0 навчила автоматизовану модель виправлення помилок: частота генерації коду без помилок досягає 93%. Її CTO Malte Ubl зазначає, що порівняно з Sonnet 3.5 це лише 62%, а наскрізна затримка покращилась у 40 разів порівняно з використанням закритих моделей, які застосовували раніше. Genspark провела fine-tuning із підкріпленням для відкритої моделі з трильйонами параметрів Kimi K2, щоб побудувати агент глибоких досліджень: обсяг викликів інструментів зріс на 33%, а витрати зменшилися на 50%. Cursor розподілено виконала тренування з підкріпленням Composer 2 на 3–4 кластері по всьому світу (зараз у CursorBench вона посідає перше місце). Тренування та виробничий вивід використовують спільний пул GPU.

Ключова відмінність технологій, на які робить акцент Fireworks AI, полягає в числовій узгодженості між навчанням і виводом. Моделі MoE (модель із гібридними експертами) у числовому вираженні є крихкішими, ніж щільні моделі: навіть незначні зміни прихованих станів можуть перемкнути маршрутизацію експертів і каскадно збільшити відхилення. Fireworks публікує для всіх підтримуваних моделей значення KL-дивергенції між навчанням і виводом — усі вони нижчі за 0.01.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів