Чи зможе публічне розділення навчання та виведення штучного інтелекту на TPU 8t·8i від Google... змінити ринок, який зосереджений навколо NVIDIA?

robot
Генерація анотацій у процесі

Гугл для зустрічі епохи “інтелектуальних агентів” змінив свою стратегію у сфері напівпровідників для штучного інтелекту. Він відмовився від попереднього підходу використання одного універсального чипа для одночасної обробки навчання та висновків, і окремо запустив “TPU 8t” для масштабного навчання та “TPU 8i” для висококонкурентних висновків.

23-го числа (за місцевим часом) у Лас-Вегасі, США, на заході “Google Cloud Next 2026” компанія оголосила про дві кастомізовані AI-напівпровідники. Вона заявила, що ринок AI швидко ділиться на “етап побудови моделей” та “етап впровадження моделей у реальні сервіси”, і пояснила, що нові TPU саме створені для адаптації до цих змін у попиті.

Якщо попередній “Ironwood TPU” був орієнтований на епоху висновків як єдина флагманська платформа, то ця генерація відрізняється тим, що її структура стала двовекторною. Це інтерпретують як те, що Google вважає: з поширенням AI-агентів зростає потреба у інфраструктурі для тренування великих моделей та у швидкому запуску цих моделей у хмарі для висновків.

TPU 8t: посилення продуктивності та економічної ефективності масштабного навчання AI

TPU 8t — це чип, орієнтований на масштабне попереднє навчання та навантаження, зосереджені на вбудованих моделях. Google заявила, що цей продукт використовує топологію мережі “3D кільце”, що підвищує масштабованість великих кластерів. Один Pod може підключати до 9600 чипів, що більше за 9216 у Ironwood.

Основна особливість — підтримка “SparseCore” та 4-бітних плаваючих чисел. SparseCore — спеціалізований прискорювач для обробки нерегулярних доступів до пам’яті під час пошуку великих мовних моделей. Google стверджує, що поєднання з низьковідбитковими обчисленнями знижує навантаження на пропускну здатність пам’яті, дозволяючи зменшити обсяг пам’яті без втрати точності, водночас подвоюючи пропускну здатність.

Це відповідає тренду, відомому як “квантизація”. Зменшення кількості бітів, необхідних для кожного параметра, означає, що навіть у системах з меншими характеристиками можна запускати більші моделі, а також зменшувати споживання енергії та займаний простір. Google заявила, що у масштабних тренувальних середовищах TPU 8t забезпечує до 2,7-кратного зростання продуктивності за долар порівняно з Ironwood.

TPU 8i: фокус на швидкості висновків та паралельній обробці

TPU 8i створений для етапу висновків, коли модель вже навчені. Він особливо ефективний у обробці великих моделей у постобробці та при високій кількості одночасних запитів користувачів.

За словами Google, TPU 8i має у 3 рази більше статичної пам’яті доступу, ніж Ironwood. Це дозволяє зберігати більший “кеш ключ-значення” для висновків великих мовних моделей, що прискорює генерацію тексту. Крім того, компанія застосувала систему під назвою “Collectives Acceleration Engine”, яка прискорює синхронізацію та редукційні обчислення під час автограду та “мислених ланцюгів” у процесі висновків.

Зв’язки між чипами також були переосмислені. Введена кастомізована топологія мережі “Boardfly ICI”, яка може з’єднувати до 1152 чипів. Її мета — зробити більш ефективним взаємне посилання між чипами, зменшуючи кількість передач даних і кількість “стрибків”. Google стверджує, що у моделях з гібридною архітектурою експертів та у моделях для висновків, що вимагають “все-до-усіх” комунікації, загальна кількість стрибків може зменшитися до 50%.

Вартість та ефективність також є ключовими аспектами. Google пояснює, що дизайн TPU 8i спрямований на низьку затримку і забезпечує приблизно 80% зростання продуктивності за долар у порівнянні з Ironwood, що особливо важливо для обслуговування надвеликого спектра моделей експертів.

Стратегія Google: чи зможе вона зрушити ринок, орієнтований на NVIDIA?

Google додала, що продуктивність TPU 8t і TPU 8i на ват у два рази краща за попереднє покоління. Енергоефективність — ключовий фактор для прибутковості великих AI-центрів даних, тому це значне покращення.

Це випуск не просто новий напівпровідник, а сигнал про те, що Google офіційно розділяє свою стратегію AI-інфраструктури на “навчання” та “висновки”. У контексті конкуренції за ринок, де переважає модель, орієнтована на продуктивність моделей, а не лише їхню якість, Google прагне посилити свою хмарну частку за допомогою TPU.

Аналітики вважають, що ключовими факторами успіху стануть швидкість впровадження клієнтами та сумісність із програмним забезпеченням у конкуренції з екосистемою, орієнтованою на NVIDIA. Однак із поширенням AI-агентів зростає попит і на напівпровідники для тренування, і для висновків, і стратегія двовекторних TPU може стати важливим поворотним моментом у майбутньому інфраструктурному змаганні AI.

Застереження щодо AI: Цей текст базується на мовній моделі TokenPost.ai. Основний зміст може бути неповним або не відповідати дійсності.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити