Gần đây, toàn bộ giới công nghệ và đầu tư đều đang chú ý đến một vấn đề chung: Ứng dụng AI đang “hủy diệt” các phần mềm SaaS truyền thống như thế nào. Kể từ khi @AnthropicAI Claude Cowork trình diễn khả năng dễ dàng giúp bạn viết email, làm PPT, phân tích bảng Excel, thì một làn sóng hoảng loạn về “phần mềm đã chết” bắt đầu lan rộng. Điều này thực sự đáng sợ, nhưng nếu chỉ dừng lại ở đây, bạn có thể bỏ lỡ một trận động đất thực sự.
Nó giống như tất cả chúng ta đều ngẩng đầu nhìn trận không chiến drone trên trời, nhưng lại không để ý đến việc toàn bộ lục địa dưới chân đang âm thầm di chuyển. Cơn bão thực sự, ẩn dưới mặt nước, là một góc mà đa số người không nhìn thấy: nền tảng sức mạnh tính toán hỗ trợ toàn bộ thế giới AI, đang diễn ra một “cuộc cách mạng lặng lẽ”.
Và cuộc cách mạng này có thể khiến các “người bán dao” của AI — như Nvidia @nvidia — phải kết thúc bữa tiệc hoành tráng do chính họ tổ chức sớm hơn mọi người nghĩ.
Hai con đường cách mạng đang hội tụ
Cuộc cách mạng này không phải là một sự kiện đơn lẻ, mà là sự đan xen của hai hướng công nghệ tưởng chừng độc lập. Chúng giống như hai đội quân đang bao vây, tạo thành thế tấn công hình kẹp vào vị thế thống trị GPU của Nvidia.
Con đường thứ nhất là cuộc cách mạng tinh giản thuật toán.
Bạn có từng nghĩ rằng, một bộ não siêu phàm khi suy nghĩ có thực sự cần huy động toàn bộ tế bào não không? Rõ ràng là không. DeepSeek đã hiểu rõ điều này và đã phát triển kiến trúc MoE (mô hình chuyên gia hỗn hợp).
Bạn có thể tưởng tượng nó như một công ty, nuôi vài trăm chuyên gia trong các lĩnh vực khác nhau. Nhưng mỗi lần họp để giải quyết vấn đề, bạn chỉ cần mời 2-3 người liên quan nhất, chứ không phải tất cả cùng nhau động não. Chính điểm thông minh của MoE nằm ở chỗ này: nó cho phép một mô hình lớn, trong mỗi lần tính toán chỉ kích hoạt một phần nhỏ “chuyên gia”, từ đó tiết kiệm đáng kể sức mạnh tính toán.
Kết quả ra sao? Mô hình DeepSeek-V2, danh nghĩa có 2360 tỷ “chuyên gia” (tham số), nhưng mỗi lần làm việc chỉ cần kích hoạt khoảng 210 tỷ, chưa đến 9% tổng số. Và hiệu suất của nó có thể sánh ngang GPT-4, vốn cần hoạt động toàn bộ 100%. Điều này có ý nghĩa gì? Khả năng của AI, và lượng tiêu thụ sức mạnh tính toán, đã không còn liên quan chặt chẽ nữa!
Trước đây, chúng ta đều nghĩ rằng, AI càng mạnh thì tiêu thụ card càng nhiều. Giờ đây, DeepSeek cho chúng ta thấy rằng, thông qua thuật toán thông minh, có thể đạt hiệu quả tương đương với chi phí bằng một phần mười. Điều này tương đương với việc đặt dấu hỏi lớn về tính cần thiết của GPU Nvidia.
Con đường thứ hai là cuộc cách mạng “đổi làn” phần cứng.
Công việc của AI gồm hai giai đoạn: huấn luyện và suy luận. Huấn luyện giống như đi học, cần đọc hàng vạn cuốn sách, lúc này GPU — với khả năng tính song song “kỳ diệu” — rất phù hợp. Nhưng suy luận thì giống như sử dụng AI hàng ngày, hơn hết là phản ứng nhanh.
GPU có nhược điểm tự nhiên trong suy luận: bộ nhớ (HBM) của nó là bộ nhớ ngoài, dữ liệu đi lại có độ trễ. Giống như một đầu bếp, nguyên liệu để nấu ăn đều để trong tủ lạnh ở phòng bên cạnh, mỗi lần nấu đều phải chạy qua lấy, dù nhanh cũng không thể nhanh hơn. Các công ty như Cerebras, Groq đã “khác biệt” bằng cách thiết kế chip suy luận chuyên dụng, tích hợp bộ nhớ SRAM ngay trên chip, giúp nguyên liệu nằm trong tầm tay, đạt “truy cập không độ trễ”.
Thị trường đã dùng tiền thật để phản hồi. OpenAI vừa phàn nàn về GPU của Nvidia không đủ tốt cho suy luận, vừa ký hợp đồng trị giá 10 tỷ USD với Cerebras để thuê dịch vụ suy luận của họ. Nvidia cũng hoảng loạn, bỏ ra 20 tỷ USD mua lại Groq, nhằm không bị tụt lại trong làn sóng mới này.
Khi hai con đường này hội tụ: chi phí bùng nổ
Giờ đây, chúng ta ghép hai yếu tố này lại với nhau: mô hình DeepSeek “gầy” hơn nhờ thuật toán, chạy trên chip Cerebras “không độ trễ”.
Chuyện gì sẽ xảy ra?
Một cơn lốc giảm chi phí.
Thứ nhất, mô hình sau khi “gầy” đi rất nhỏ, có thể nhét toàn bộ vào bộ nhớ tích hợp của chip. Thứ hai, không còn bị giới hạn bởi bộ nhớ ngoài, phản ứng của AI sẽ cực kỳ nhanh. Kết quả cuối cùng là: chi phí huấn luyện giảm 90% nhờ kiến trúc MoE, còn chi phí suy luận giảm thêm một cấp độ nữa nhờ phần cứng chuyên dụng và tính toán thưa thớt. Tính ra, tổng chi phí để sở hữu và vận hành một AI đẳng cấp thế giới có thể chỉ còn 10-15% so với các giải pháp GPU truyền thống.
Đây không phải là cải tiến, mà là một bước chuyển đổi mô hình.
Vị trí của Nvidia, đang bị âm thầm kéo khỏi chiếc thảm
Bây giờ bạn đã hiểu tại sao điều này còn nguy hiểm hơn cả “sự hoảng loạn Cowork”.
Với giá trị thị trường hàng chục nghìn tỷ của Nvidia ngày nay, dựa trên câu chuyện đơn giản: AI là tương lai, và tương lai của AI phải dựa vào GPU của tôi. Nhưng giờ đây, nền tảng của câu chuyện này đang bị lung lay.
Trong thị trường huấn luyện, dù Nvidia vẫn giữ độc quyền, nhưng nếu khách hàng chỉ cần dùng một phần mười số card để làm việc, thì quy mô tổng thể của thị trường này có thể sẽ giảm mạnh.
Trong thị trường suy luận, gã khổng lồ lớn gấp mười lần đó, Nvidia không còn là đối thủ duy nhất, mà còn bị các “thần thánh” như Google, Cerebras bao vây. Ngay cả khách hàng lớn nhất của Nvidia là OpenAI cũng đang bỏ chạy.
Một khi Phố Wall nhận ra rằng “cây xẻng” của Nvidia không còn là lựa chọn duy nhất, thậm chí không phải là tốt nhất, thì định giá dựa trên kỳ vọng “độc quyền vĩnh viễn” sẽ ra sao? Tôi nghĩ mọi người đều rõ.
Vì vậy, trong nửa năm tới, “con chim đen” lớn nhất có thể không phải là một AI nào đó hạ gục ai, mà là một tin tức công nghệ tưởng chừng nhỏ nhặt: như một bài báo mới về hiệu quả thuật toán MoE, hoặc một báo cáo về thị phần chip suy luận chuyên dụng tăng vọt, âm thầm báo hiệu cuộc chiến sức mạnh tính toán bước sang giai đoạn mới.
Khi “người bán dao” không còn là lựa chọn duy nhất, thời kỳ hoàng kim của họ có thể cũng đã chấm dứt.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Chấn động tiếp theo của AI: Tại sao mối nguy hiểm thực sự không phải là kẻ giết chết SaaS, mà là cuộc cách mạng về sức mạnh tính toán?
Viết bởi: Bruce
Gần đây, toàn bộ giới công nghệ và đầu tư đều đang chú ý đến một vấn đề chung: Ứng dụng AI đang “hủy diệt” các phần mềm SaaS truyền thống như thế nào. Kể từ khi @AnthropicAI Claude Cowork trình diễn khả năng dễ dàng giúp bạn viết email, làm PPT, phân tích bảng Excel, thì một làn sóng hoảng loạn về “phần mềm đã chết” bắt đầu lan rộng. Điều này thực sự đáng sợ, nhưng nếu chỉ dừng lại ở đây, bạn có thể bỏ lỡ một trận động đất thực sự.
Nó giống như tất cả chúng ta đều ngẩng đầu nhìn trận không chiến drone trên trời, nhưng lại không để ý đến việc toàn bộ lục địa dưới chân đang âm thầm di chuyển. Cơn bão thực sự, ẩn dưới mặt nước, là một góc mà đa số người không nhìn thấy: nền tảng sức mạnh tính toán hỗ trợ toàn bộ thế giới AI, đang diễn ra một “cuộc cách mạng lặng lẽ”.
Và cuộc cách mạng này có thể khiến các “người bán dao” của AI — như Nvidia @nvidia — phải kết thúc bữa tiệc hoành tráng do chính họ tổ chức sớm hơn mọi người nghĩ.
Hai con đường cách mạng đang hội tụ
Cuộc cách mạng này không phải là một sự kiện đơn lẻ, mà là sự đan xen của hai hướng công nghệ tưởng chừng độc lập. Chúng giống như hai đội quân đang bao vây, tạo thành thế tấn công hình kẹp vào vị thế thống trị GPU của Nvidia.
Con đường thứ nhất là cuộc cách mạng tinh giản thuật toán.
Bạn có từng nghĩ rằng, một bộ não siêu phàm khi suy nghĩ có thực sự cần huy động toàn bộ tế bào não không? Rõ ràng là không. DeepSeek đã hiểu rõ điều này và đã phát triển kiến trúc MoE (mô hình chuyên gia hỗn hợp).
Bạn có thể tưởng tượng nó như một công ty, nuôi vài trăm chuyên gia trong các lĩnh vực khác nhau. Nhưng mỗi lần họp để giải quyết vấn đề, bạn chỉ cần mời 2-3 người liên quan nhất, chứ không phải tất cả cùng nhau động não. Chính điểm thông minh của MoE nằm ở chỗ này: nó cho phép một mô hình lớn, trong mỗi lần tính toán chỉ kích hoạt một phần nhỏ “chuyên gia”, từ đó tiết kiệm đáng kể sức mạnh tính toán.
Kết quả ra sao? Mô hình DeepSeek-V2, danh nghĩa có 2360 tỷ “chuyên gia” (tham số), nhưng mỗi lần làm việc chỉ cần kích hoạt khoảng 210 tỷ, chưa đến 9% tổng số. Và hiệu suất của nó có thể sánh ngang GPT-4, vốn cần hoạt động toàn bộ 100%. Điều này có ý nghĩa gì? Khả năng của AI, và lượng tiêu thụ sức mạnh tính toán, đã không còn liên quan chặt chẽ nữa!
Trước đây, chúng ta đều nghĩ rằng, AI càng mạnh thì tiêu thụ card càng nhiều. Giờ đây, DeepSeek cho chúng ta thấy rằng, thông qua thuật toán thông minh, có thể đạt hiệu quả tương đương với chi phí bằng một phần mười. Điều này tương đương với việc đặt dấu hỏi lớn về tính cần thiết của GPU Nvidia.
Con đường thứ hai là cuộc cách mạng “đổi làn” phần cứng.
Công việc của AI gồm hai giai đoạn: huấn luyện và suy luận. Huấn luyện giống như đi học, cần đọc hàng vạn cuốn sách, lúc này GPU — với khả năng tính song song “kỳ diệu” — rất phù hợp. Nhưng suy luận thì giống như sử dụng AI hàng ngày, hơn hết là phản ứng nhanh.
GPU có nhược điểm tự nhiên trong suy luận: bộ nhớ (HBM) của nó là bộ nhớ ngoài, dữ liệu đi lại có độ trễ. Giống như một đầu bếp, nguyên liệu để nấu ăn đều để trong tủ lạnh ở phòng bên cạnh, mỗi lần nấu đều phải chạy qua lấy, dù nhanh cũng không thể nhanh hơn. Các công ty như Cerebras, Groq đã “khác biệt” bằng cách thiết kế chip suy luận chuyên dụng, tích hợp bộ nhớ SRAM ngay trên chip, giúp nguyên liệu nằm trong tầm tay, đạt “truy cập không độ trễ”.
Thị trường đã dùng tiền thật để phản hồi. OpenAI vừa phàn nàn về GPU của Nvidia không đủ tốt cho suy luận, vừa ký hợp đồng trị giá 10 tỷ USD với Cerebras để thuê dịch vụ suy luận của họ. Nvidia cũng hoảng loạn, bỏ ra 20 tỷ USD mua lại Groq, nhằm không bị tụt lại trong làn sóng mới này.
Khi hai con đường này hội tụ: chi phí bùng nổ
Giờ đây, chúng ta ghép hai yếu tố này lại với nhau: mô hình DeepSeek “gầy” hơn nhờ thuật toán, chạy trên chip Cerebras “không độ trễ”.
Chuyện gì sẽ xảy ra?
Một cơn lốc giảm chi phí.
Thứ nhất, mô hình sau khi “gầy” đi rất nhỏ, có thể nhét toàn bộ vào bộ nhớ tích hợp của chip. Thứ hai, không còn bị giới hạn bởi bộ nhớ ngoài, phản ứng của AI sẽ cực kỳ nhanh. Kết quả cuối cùng là: chi phí huấn luyện giảm 90% nhờ kiến trúc MoE, còn chi phí suy luận giảm thêm một cấp độ nữa nhờ phần cứng chuyên dụng và tính toán thưa thớt. Tính ra, tổng chi phí để sở hữu và vận hành một AI đẳng cấp thế giới có thể chỉ còn 10-15% so với các giải pháp GPU truyền thống.
Đây không phải là cải tiến, mà là một bước chuyển đổi mô hình.
Vị trí của Nvidia, đang bị âm thầm kéo khỏi chiếc thảm
Bây giờ bạn đã hiểu tại sao điều này còn nguy hiểm hơn cả “sự hoảng loạn Cowork”.
Với giá trị thị trường hàng chục nghìn tỷ của Nvidia ngày nay, dựa trên câu chuyện đơn giản: AI là tương lai, và tương lai của AI phải dựa vào GPU của tôi. Nhưng giờ đây, nền tảng của câu chuyện này đang bị lung lay.
Trong thị trường huấn luyện, dù Nvidia vẫn giữ độc quyền, nhưng nếu khách hàng chỉ cần dùng một phần mười số card để làm việc, thì quy mô tổng thể của thị trường này có thể sẽ giảm mạnh.
Trong thị trường suy luận, gã khổng lồ lớn gấp mười lần đó, Nvidia không còn là đối thủ duy nhất, mà còn bị các “thần thánh” như Google, Cerebras bao vây. Ngay cả khách hàng lớn nhất của Nvidia là OpenAI cũng đang bỏ chạy.
Một khi Phố Wall nhận ra rằng “cây xẻng” của Nvidia không còn là lựa chọn duy nhất, thậm chí không phải là tốt nhất, thì định giá dựa trên kỳ vọng “độc quyền vĩnh viễn” sẽ ra sao? Tôi nghĩ mọi người đều rõ.
Vì vậy, trong nửa năm tới, “con chim đen” lớn nhất có thể không phải là một AI nào đó hạ gục ai, mà là một tin tức công nghệ tưởng chừng nhỏ nhặt: như một bài báo mới về hiệu quả thuật toán MoE, hoặc một báo cáo về thị phần chip suy luận chuyên dụng tăng vọt, âm thầm báo hiệu cuộc chiến sức mạnh tính toán bước sang giai đoạn mới.
Khi “người bán dao” không còn là lựa chọn duy nhất, thời kỳ hoàng kim của họ có thể cũng đã chấm dứt.