Останнім часом новий улюбленець AI-чипів, що подає заявку на IPO — Cerebras, став популярним у Кремнієвій долині.


Її чип у сценаріях малих моделей демонструє найвищу швидкість обчислень до 20 разів швидше за H100; а для надмасивних моделей (наприклад, з 400 мільярдами параметрів) швидкість відповіді системи Cerebras CS-3 для одного користувача становить приблизно у 2,4 рази більше, ніж у B200.
То як же Cerebras досягає такого? Чи стане вона вбивцею NVIDIA?
Нам потрібно почати з сутності еволюції обчислювальної потужності.
Еволюція AI-обчислень поступово змінюється з «саме обчислювальної потужності» на «комунікації та системної архітектури».
На цьому шляху розвитку Cerebras Systems пропонує зовсім іншу відповідь: не оптимізувати розподілені обчислення, а максимально знищити розподіленість.

**I. Два шляхи: знищення комунікації vs її оптимізація**
Зараз сутність AI-обчислень поділяється на дві архітектурні філософії: одна — представлена NVIDIA:
багаточипові (GPU), швидке з’єднання (NVLink / CPO), масштабування по горизонталі (scale-out)
Інша — шлях Cerebras: досягнення межі на одному чипі (wafer-scale)
Мережа всередині кристалу замінює міжнодаєву комунікацію, масштабування по вертикалі (scale-up)
Ключова різниця: одна — вирішує «як підключити більше чипів», інша — «як не потрібно підключати».

**II. Чому цей шлях став можливим саме зараз**
Wafer-scale не є новою концепцією: її намагалися ще в 80-х, але комерційний провал у 90-х. Причини:
низька вихідна якість (良率)
відсутність механізмів помилок (容錯)
незріла підтримка програмного забезпечення
Через це сформувалася галузева консолідація: малий die + висока якість + розподілені системи.
Прорив Cerebras полягає у трьох одночасних факторах:
1) інженерна реалізація механізмів помилок
2) зрілість мережі всередині кристалу
3) відповідність AI-робочих навантажень (висока паралельність, сильна синхронізація, домінування комунікації)
Суттєва зміна — від «ідеального апаратного забезпечення» до «системи з помилками».

**III. Порівняння продуктивності: межа одного вузла vs масштаб системи**
На рівні комунікацій дві стратегії мають чіткі переваги та недоліки:
1) Внутрішня комунікація
Cerebras: повністю всередині чипа → мінімальна затримка, мінімальне енергоспоживання
CPO: все ще є оптичне перетворення
→ Ефективність на один вузол: Cerebras краще
2) Масштабування системи
Cerebras: при переході через межу чипа → повернення до проблем комунікації
CPO: пропускна здатність може безперервно розширюватися
→ Потужність системи: CPO краще
3) Структура споживання енергії
Cerebras: дуже високий споживання на один пристрій, але дуже економна комунікація
GPU + CPO: контрольоване споживання на один вузол, баланс системної ефективності
Висновок очевидний:
Cerebras перемагає у «межах одного пристрою»,
CPO — у «масштабі системи».

**IV. Сфери застосування: хто має використовувати Cerebras**
Критерії можна звести до трьох питань:
1) Чи є комунікація вузьким місцем?
2) Чи можливо зосередити завдання?
3) Чи структура системи регулярна?
Тому вона ідеально підходить для тренування великих моделей (щільних моделей), довгих контекстів і частково для HPC (PDE, гідродинаміка тощо).
Ці задачі мають спільне: сильне зчеплення + висока синхронізація + високий пропускний канал.
Частково — для виведення великих моделей (низька паралельність), графових обчислень (зменшення переваг при складних структурах).
Не підходить для CPU (універсальні обчислення), високопаралельних виведень, мобільних/краєвих чипів, систем у реальному часі.
Загальні характеристики цих систем: нерегулярність / висока паралельність / низька затримка.

**V. Чи стане це основним напрямком**
Хоча Cerebras демонструє сильні результати у вузьких сценаріях, основний потік не йтиме цим шляхом через:
1) фізичні обмеження: щільність споживання енергії; затримки сигналів → механізми помилок не вирішують ці проблеми
2) економічність: малий die має вищу вихідну якість; chiplet — більш гнучкий
3) галузевий шлях: TSMC та інші орієнтуються на модульність, багатоклієнтне повторне використання, а не надзвичайно великі монолітні рішення
4) зміни у попиті: частка виведення ( inference) значно вища за тренування, домінують багатозадачність і висока паралельність.

**VI. Значення Cerebras**
Замість того, щоб вважати wafer-scale важливим трендом, краще сприймати механізми помилок як філософію, що буде широко впроваджена.
Можливо, у майбутньому з’являться chiplet-рівні механізми помилок, обходи на рівні пакування.
Ключова зміна — один апаратний компонент вже не потребує ідеальності, система відповідає за резерв.

Повертаючись до початкового питання: чи стане Cerebras «вбивцею» NVIDIA?
Відповідь вже досить очевидна.
Вона дійсно вразила слабке місце архітектури GPU — комунікацію. Але галузь не обирає між цим і тим, а застосовує кілька технологічних проривів одночасно: більш швидкі з’єднання, менше енергоспоживання комунікації, вища системна ефективність.
Тому точніше сказати, що Cerebras — не вбивця NVIDIA, а найкраща практика, якою можуть скористатися всі виробники чипів.

Застереження: я володію цінними паперами, згаданими у тексті, тому мої погляди можуть бути упередженими. Це не інвестиційна порада. Інвестиційний ризик — дуже високий, входити потрібно з обережністю.
(Зображення: один чип Cerebras)
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити