Google công khai tách riêng học và suy luận AI của TPU 8t·8i… Liệu có thể làm lung lay thị trường chủ yếu do Nvidia chi phối?

robot
Đang tạo bản tóm tắt

Google để đón chào “Thời đại trí thông minh nhân tạo”, đã thay đổi chiến lược bán dẫn AI. Nó đã thoát khỏi cách sử dụng duy nhất chip chung để xử lý cả học tập và suy luận cùng lúc, lần lượt ra mắt “TPU 8t” dành cho học tập quy mô lớn và “TPU 8i” dành cho suy luận đồng thời cao.

Vào ngày 23 (giờ địa phương), Google đã công bố hai loại bán dẫn AI tùy chỉnh tại “Google Cloud Next 2026” tổ chức ở Las Vegas, Mỹ. Công ty cho biết, thị trường AI đang nhanh chóng phân chia thành “giai đoạn xây dựng mô hình” và “giai đoạn đưa mô hình vào dịch vụ thực tế”, và giải thích rằng, các mẫu TPU mới chính là để thích ứng với sự thay đổi nhu cầu này.

Nếu nói trước đây “Ironwood TPU” là nền tảng duy nhất hướng tới thời kỳ suy luận, thì đặc điểm của thế hệ sản phẩm này là cấu trúc của nó đã đạt được sự phân đôi. Điều này được hiểu là, Google nhận định rằng, cùng với sự phổ biến của AI trí thông minh, nhu cầu về hạ tầng để huấn luyện các mô hình lớn hơn, cũng như hạ tầng suy luận để chạy nhanh các mô hình này trên đám mây đang cùng tăng lên.

TPU 8t:Tăng cường hiệu suất huấn luyện AI quy mô lớn và hiệu quả chi phí

TPU 8t là một chip tập trung vào huấn luyện trước quy mô lớn và tải công việc dựa trên nhúng. Google cho biết, sản phẩm này sử dụng cấu trúc mạng “vòng 3D” để nâng cao khả năng mở rộng của các cụm lớn. Số lượng chip có thể kết nối trong một Pod là 9600, cao hơn 9216 của Ironwood.

Điểm cốt lõi là hỗ trợ “SparseCore” và tính toán số học dấu phẩy động 4 bit. SparseCore là một bộ tăng tốc chuyên dụng để xử lý các truy cập bộ nhớ không đều thường xuyên xuất hiện trong quá trình tìm kiếm mô hình ngôn ngữ lớn. Google tuyên bố rằng, bằng cách kết hợp tính toán bit thấp, đã giảm tải băng thông bộ nhớ, ngay cả khi sử dụng bộ nhớ nhỏ hơn vẫn có thể duy trì độ chính xác, đồng thời tăng gấp đôi thông lượng.

Điều này phù hợp với xu hướng công nghệ gọi là “định lượng”. Giảm số bit cần cho mỗi tham số có nghĩa là có thể chạy các mô hình lớn hơn ngay cả trong hệ thống có cấu hình tương đối thấp, đồng thời giảm tiêu thụ năng lượng và diện tích không gian. Google cho biết, trong môi trường huấn luyện quy mô lớn, TPU 8t so với Ironwood, hiệu suất trên mỗi đô la đã tăng tối đa 2,7 lần.

TPU 8i:Tập trung vào tốc độ suy luận và khả năng xử lý đồng thời cao

TPU 8i được thiết kế đặc biệt cho giai đoạn suy luận, đưa các mô hình đã huấn luyện vào dịch vụ thực tế. Nó đặc biệt có lợi trong xử lý hậu kỳ của các mô hình lớn và xử lý nhiều yêu cầu đồng thời của người dùng.

Theo Google, TPU 8i được trang bị bộ nhớ truy cập ngẫu nhiên tĩnh nhiều gấp 3 lần so với Ironwood. Điều này giúp nó chứa được “bộ đệm khóa-giá trị” lớn hơn cần thiết cho suy luận mô hình ngôn ngữ lớn, từ đó nâng cao tốc độ tạo văn bản. Ngoài ra, Google còn áp dụng hệ thống suy luận gọi là “Collectives Acceleration Engine”. Hệ thống này chịu trách nhiệm tăng tốc các phép tính đồng bộ và rút gọn cần thiết trong quá trình giải mã tự hồi quy và suy luận “chuỗi suy nghĩ”.

Cấu trúc kết nối giữa các chip cũng được thiết kế lại. Google giới thiệu một cấu trúc mạng tùy chỉnh gọi là “Boardfly ICI”, có thể liên kết tối đa 1152 chip. Mục tiêu của thiết kế này là giúp tất cả các chip có thể tham chiếu lẫn nhau hiệu quả hơn, giảm khoảng cách truyền dữ liệu và số lần nhảy của gói dữ liệu. Google cho biết, trong các mô hình ngôn ngữ lớn dựa trên mô hình hỗn hợp chuyên gia và các mô hình suy luận, tổng số lần nhảy có thể giảm tới 50% trong các giao tiếp “All-to-All” cần thiết.

Chi phí hiệu quả cũng là điểm nhấn. Google giải thích rằng, thiết kế của TPU 8i nhằm giảm độ trễ, mang lại khoảng 80% hiệu suất trên mỗi đô la so với Ironwood, đặc biệt có lợi cho dịch vụ các mô hình hỗn hợp chuyên gia siêu lớn.

Chiến lược của Google: Liệu có thể làm lung lay thị trường do NVIDIA chi phối?

Google bổ sung rằng, hiệu suất trên mỗi watt của TPU 8t và TPU 8i đều tăng gấp 2 lần so với thế hệ trước. Hiệu quả năng lượng là biến số quyết định lợi nhuận của các trung tâm dữ liệu AI quy mô lớn, do đó sự nâng cao này có ý nghĩa rất lớn.

Việc ra mắt lần này không chỉ đơn thuần là giới thiệu một sản phẩm bán dẫn mới, mà còn như một tín hiệu cho thấy Google chính thức phân chia chiến lược hạ tầng AI thành “huấn luyện” và “suy luận”. Trong xu hướng cạnh tranh dịch vụ AI đang chuyển từ hiệu suất mô hình sang chi phí vận hành, tốc độ phản hồi và khả năng xử lý đồng thời, Google đang cố gắng nâng cao hơn nữa vị thế của mình trong lĩnh vực đám mây qua các TPU này.

Thị trường cho rằng, yếu tố quyết định thành bại cuối cùng sẽ là tốc độ tiếp nhận của khách hàng thực tế, cũng như khả năng tương thích phần mềm khi cạnh tranh với hệ sinh thái do NVIDIA chi phối. Tuy nhiên, cùng với sự phổ biến của trí thông minh nhân tạo, nhu cầu về bán dẫn dùng cho huấn luyện và suy luận đang cùng tăng lên, chiến lược phân đôi TPU của Google có thể trở thành một bước ngoặt quan trọng trong cuộc đua hạ tầng AI trong tương lai.

Lưu ý về TPU Bài viết này dựa trên tóm tắt của TokenPost.ai về mô hình ngôn ngữ. Nội dung chính của bài có thể thiếu hoặc không hoàn toàn chính xác.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim