Цікава річ сталася з ринком AI інференсу, про яку варто поговорити. NVIDIA придбала Groq, і коли Хуан Ренсюнь почав пояснювати логіку цієї угоди, стало ясно, що це не просто так.



До цього весь фокус був на одному: як пропустити більше даних одночасно, тобто на пропускній здатності. Але виявляється, що ринок розколовся. Деякі користувачі готові платити вищу ціну за те, щоб отримати відповідь швидше. Токени стали дорожчими, і час їх генерації почав мати реальну вартість. Це змінює всю гру.

Отже, Groq спеціалізується саме на цьому — на низькій затримці. Їхня архітектура LPU побудована так, щоб забезпечувати детерміновану, передбачувану затримку. Коли NVIDIA придбала Groq, вони по суті заповнили дірку в своєму портфелі. GPU NVIDIA залишаються королями пропускної здатності, але для сегменту низької затримки потрібна інша архітектура.

Новий чіп Groq 3 LPU — це перший продукт після об'єднання, виготовлений за технологією 4 нм. За заявами NVIDIA, його ефективність при роботі з великими моделями в 35 разів перевищує показники їхнього флагмана Blackwell NVL72. Це не про абсолютну швидкість, а про те, скільки потужності потрібно для досягнення цієї швидкості.

Практично це означає, що тепер можна пропонувати різні рішення для різних потреб: хочеш максимум пропускної здатності — є GPU; потрібна швидка відповідь за будь-яку ціну — є Groq. Один і той самий модель може коштувати по-різному залежно від того, як швидко ти хочеш результат. Це розширення меж того, що можна оптимізувати на ринку інференсу.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити