Bùng nổ tháng 2! Lượng truy cập AI của Trung Quốc lần đầu vượt Mỹ, 4 mô hình lớn đứng đầu top 5 toàn cầu, nhu cầu về sức mạnh tính toán trong nước đang trải qua mức tăng trưởng theo cấp số nhân
Tháng 2, lượng gọi mô hình AI của Trung Quốc bùng nổ, lần đầu vượt Mỹ.
Dữ liệu từ nền tảng tổng hợp API mô hình AI lớn nhất thế giới OpenRouter cho thấy, từ ngày 9 đến 15, mô hình Trung Quốc với 4.12 nghìn tỷ Token đã lần đầu vượt qua mô hình Mỹ cùng kỳ với 2.94 nghìn tỷ Token.
Tuần từ ngày 16 đến 22, lượng gọi mô hình Trung Quốc tiếp tục tăng mạnh lên 5.16 nghìn tỷ Token, tăng 127% trong ba tuần, trong khi lượng gọi mô hình Mỹ giảm xuống còn 2.7 nghìn tỷ Token. Đồng thời, trong top 5 mô hình được gọi nhiều nhất toàn cầu, có tới 4 mô hình của Trung Quốc, sức tăng trưởng mạnh mẽ này không dựa vào một sản phẩm nổi bật duy nhất, mà là sự trỗi dậy tập thể của các nhà cung cấp AI Trung Quốc.
Token là đơn vị nhỏ nhất để AI xử lý văn bản. So với số người dùng, lượng gọi Token phản ánh chính xác hơn về cường độ sử dụng mô hình AI, mức độ gắn kết của người dùng và giá trị thương mại.
Các nhà cung cấp mô hình AI Trung Quốc đang chiếm lĩnh thị trường toàn cầu nhờ vào khả năng cập nhật nhanh và lợi thế về chi phí, nhu cầu tính toán nội địa đang tăng theo cấp số nhân.
Bảng xếp hạng thay đổi: Token Trung Quốc lần đầu vượt Mỹ, bốn mô hình lớn thống trị
OpenRouter, nền tảng tập hợp hàng trăm mô hình ngôn ngữ lớn toàn cầu, có hơn 5 triệu người dùng phát triển, hiện là nền tảng API mô hình AI lớn nhất thế giới. Do đó, dữ liệu gọi API của nền tảng này được xem là “bảng dự báo” chính xác nhất về xu hướng ứng dụng AI toàn cầu, phản ánh trực tiếp sự lựa chọn của các nhà phát triển, thể hiện mức độ phổ biến và sức cạnh tranh của mô hình trong thực tế.
Lưu ý rằng, phần lớn người dùng của nền tảng này là các nhà phát triển quốc tế, trong đó Mỹ chiếm tỷ lệ cao tới 47.17%, còn Trung Quốc chỉ 6.01%, giúp dữ liệu bảng xếp hạng phản ánh khách quan hơn sức hút thực sự của các mô hình AI Trung Quốc trên toàn cầu.
Phóng viên Báo Kinh tế Thường nhật (gọi tắt là phóng viên mỗi ngày) tổng hợp dữ liệu từ OpenRouter cho thấy, trong vòng một năm qua, lượng Token gọi các mô hình lớn toàn cầu đã tăng trưởng đáng kinh ngạc theo cấp số nhân. Tuần từ ngày 3 đến 9 tháng 3 năm 2025, top 10 mô hình của nền tảng này chỉ có tổng cộng 1.24 nghìn tỷ Token gọi. Đến giữa tháng 2 năm 2026, con số này đã tăng vọt lên 13.95 nghìn tỷ Token, chỉ chưa đầy một năm đã tăng hơn 10 lần.
Năm 2025, mô hình Mỹ là động lực chính của tăng trưởng thị trường, chiếm gần 70% tổng lượng Token gọi trong top 10 của nền tảng, trong khi mô hình Trung Quốc chỉ chiếm chưa tới 20%. Tuy nhiên, bước sang năm 2026, tốc độ tăng trưởng của mô hình Mỹ bắt đầu chững lại, còn mô hình Trung Quốc bắt đầu “bứt phá”.
Dữ liệu cho thấy, tuần đầu tháng 2 năm 2026 (từ ngày 2 đến 8), lượng gọi của mô hình Trung Quốc đã vọt lên 2.27 nghìn tỷ Token, gửi đi tín hiệu mạnh mẽ về cuộc đua.
Chỉ sau một tuần, trong tuần từ ngày 9 đến 15 tháng 2, lượng gọi của mô hình Trung Quốc đã đạt 4.12 nghìn tỷ Token, chính thức vượt qua mô hình Mỹ cùng kỳ với 2.94 nghìn tỷ Token, tạo nên bước đột phá lịch sử.
Sức tăng này không dừng lại, đến tuần từ ngày 16 đến 22 tháng 2, lượng gọi của mô hình Trung Quốc còn tăng lên 5.16 nghìn tỷ Token, tăng 127% trong ba tuần, mở rộng lợi thế dẫn đầu.
Sức tăng trưởng mạnh mẽ này không dựa vào một sản phẩm chủ đạo duy nhất, mà là sự trỗi dậy tập thể của các nhà cung cấp AI Trung Quốc.
Tuần từ ngày 16 đến 22 tháng 2 năm 2026, trong top 5 mô hình được gọi nhiều nhất nền tảng, có tới 4 mô hình của các nhà cung cấp Trung Quốc, gồm MiniMax M2.5, Kimi K2.5 của Moon Shadow, GLM-5 của Zhipu và V3.2 của DeepSeek. Tổng cộng, bốn mô hình này chiếm 85.7% tổng lượng gọi trong top 5.
Cụ thể, mô hình M2.5 của MiniMax ra mắt ngày 13 tháng 2 năm 2026, chưa đầy một tuần đã nhanh chóng đứng đầu bảng xếp hạng tuần. Trong tuần từ ngày 9 đến 15 tháng 2, tổng lượng gọi của nền tảng OpenRouter tăng vọt 3.21 nghìn tỷ Token, trong đó riêng M2.5 đã đóng góp 1.44 nghìn tỷ Token, con số ấn tượng.
Mô hình Kimi K2.5 của Moon Shadow ra mắt ngày 27 tháng 1, nhờ kiến trúc đa mô hình nguyên bản và khả năng xử lý song song mạnh mẽ của Agent, đã liên tục tăng lượng gọi. Mô hình này có thể điều phối tới 100 “Agent ảo” làm việc song song, nâng cao hiệu quả xử lý nhiệm vụ từ 3 đến 10 lần. Theo báo chí, sau chưa đầy một tháng ra mắt Kimi K2.5, tổng doanh thu của mô hình đã vượt cả doanh thu cả năm 2025, chủ yếu do lượng người dùng trả phí toàn cầu và lượng API gọi tăng vọt.
Mô hình chủ lực GLM-5 của Zhipu sau khi ra mắt ngày 12 tháng 2, nhờ vào cửa sổ ngữ cảnh dài 200K và tối ưu sâu cho các nhiệm vụ dài hạn của Agent, đã nhanh chóng mở rộng quy mô người dùng, lượng gọi trong tuần đầu tiên đạt 0.8 nghìn tỷ Token.
Trong năm qua, dù mô hình của Alibaba Qianwen ít xuất hiện trong bảng xếp hạng, nhưng báo cáo hợp tác của a16z và OpenRouter cho thấy, tổng lượng Token gọi của toàn bộ dòng mô hình này đứng thứ hai toàn cầu với 5.59 nghìn tỷ, chỉ sau DeepSeek với 14.37 nghìn tỷ.
Báo cáo của công ty tư vấn Frost & Sullivan cho biết, trong thị trường mô hình lớn B2B của Trung Quốc, nửa cuối năm 2025, dòng mô hình Qwen chiếm 32.1% lượng Token gọi trung bình hàng ngày, đứng đầu, gần gấp đôi so với 17.7% của nửa đầu năm, và vượt xa ByteDance Doubao (21.3%) cùng DeepSeek (18.4%).
Về cấu trúc thị trường mô hình lớn của Trung Quốc, Giáo sư Hu Yanping, Trường Đại học Kinh tế Thượng Hải, gọi đó là “đội quân AI Trung Quốc”.
Ông cho rằng, độ tập trung của thị trường công nghiệp không phải càng cao càng tốt, mà cần có nhiều doanh nghiệp hàng đầu tạo thành một cộng đồng công nghệ rộng lớn, thay vì chỉ vài ba “đại gia”, điều này tốt cho cạnh tranh sáng tạo và xây dựng hệ sinh thái nhân tài, cũng giúp tạo lợi thế tập thể trong cuộc cạnh tranh AI Trung-Mỹ.
Nhà đầu tư mạo hiểm nổi tiếng Andreessen Horowitz (a16z) nhận định, hiện tại, trong các startup AI tìm kiếm vốn tại Silicon Valley, 80% mô hình chính trong các buổi thuyết trình sử dụng mô hình mã nguồn mở của Trung Quốc.
Năng lực cạnh tranh: Chi phí chưa tới 1/10 của AI Mỹ, tại sao Token Trung Quốc lại rẻ?
Thứ nhất, ngoài khả năng cạnh tranh về hiệu năng, chi phí cực kỳ cạnh tranh là lợi thế không thể phủ nhận của các mô hình Trung Quốc. Ví dụ, giá của các mô hình như MiniMax M2.5 và GLM-5 trên nền tảng OpenRouter đều là 0.3 USD mỗi triệu Token, trong khi các sản phẩm đối thủ quốc tế như Claude Opus4.6 có giá tới 5 USD/triệu Token, cao gấp khoảng 16.7 lần.
Trong quá trình tạo nội dung (Output), chi phí còn chênh lệch lớn hơn. MiniMax M2.5 có giá 1.1 USD/triệu Token, GLM-5 là 2.55 USD, còn Claude Opus4.6 lên tới 25 USD, lần lượt gấp khoảng 22.7 và 9.8 lần.
Khoảng cách chi phí lớn như vậy trực tiếp ảnh hưởng đến quyết định của nhà phát triển khi chọn API.
Chênh lệch này chủ yếu xuất phát từ đổi mới kiến trúc thuật toán.
Giám đốc Frost & Sullivan Trung Quốc, Lý Quảng, phân tích trong cuộc phỏng vấn rằng, kiến trúc “Chuyên gia hỗn hợp (MoE)” là một trong những lý do chính giúp các mô hình Trung Quốc giảm đáng kể chi phí suy luận. Hiện nay, các mô hình như DeepSeek, Alibaba Tongyi Qianwen 3.5-Plus đều đã áp dụng rộng rãi kiến trúc MoE.
Điểm đặc biệt của kiến trúc MoE là nó chia nhỏ một mô hình lớn thành nhiều “chuyên gia” nhỏ hơn và một “mạng điều khiển”. Dù tổng số tham số của mô hình có thể rất lớn (hàng nghìn tỷ tham số), nhưng khi xử lý một nhiệm vụ, mạng điều khiển sẽ thông minh xác định tính chất của nhiệm vụ và chỉ kích hoạt (gọi) một phần nhỏ các chuyên gia phù hợp nhất để tính toán.
Phương thức “kích hoạt theo nhu cầu” này, khác với mô hình truyền thống “kích hoạt toàn bộ tham số”, giúp giảm đáng kể lượng tính toán và yêu cầu phần cứng. Dữ liệu cho thấy, sử dụng kiến trúc MoE có thể giảm 60% bộ nhớ GPU trong suy luận, đồng thời tăng gấp 19 lần khả năng xử lý Token trong một đơn vị thời gian. Đây chính là nguồn gốc của lợi thế giảm chi phí từ công nghệ.
Ngoài đổi mới về kiến trúc thuật toán, các nhà cung cấp AI Trung Quốc còn tích cực khám phá con đường “tích hợp dọc” để giảm chi phí cho từng Token. Ý tưởng chính là tích hợp sâu các phần mềm mô hình, hạ tầng điện toán đám mây trung tầng và chip AI, nhằm giải quyết các điểm nghẽn về tương thích phần cứng – phần mềm, tối đa hóa hiệu quả sử dụng tài nguyên tính toán.
Lý Quảng lấy ví dụ hệ thống “Tongyi-Cloud-Core” của Alibaba, cho biết, mô hình tích hợp dọc từ trên xuống này có thể tối ưu hóa phân bổ tài nguyên phần cứng, giảm đáng kể chi phí hạ tầng của dịch vụ AI. Các tối ưu hóa hệ thống này giúp giảm chi phí sản xuất Token hơn nữa.
JPMorgan dự báo lạc quan về thị trường Trung Quốc, dự kiến từ 2025 đến 2030, lượng Token tiêu thụ hàng năm sẽ tăng trưởng trung bình 330%, trong vòng 5 năm sẽ tăng 370 lần.
Giá trị biến đổi: Token từ “lượng truy cập internet” thành “nhiên liệu” của thời đại AI
Sự tăng trưởng theo cấp số nhân của lượng Token tiêu thụ phản ánh rõ ràng sự thay đổi căn bản trong cách người dùng sử dụng AI. Vai trò của AI đang từ một “công cụ hỏi đáp” đơn thuần, trở thành “công cụ sản xuất” có thể tham gia sâu vào quy trình làm việc, xử lý các nhiệm vụ phức tạp.
Trong báo cáo gần đây, Công ty chứng khoán Liên minh Minsheng đề cập khái niệm “lạm phát Token”. Điều này không có nghĩa là giá Token tăng, mà là cấu trúc tiêu thụ Token của từng người dùng trong một khoảng thời gian, trên mỗi đơn vị, có xu hướng tăng theo tính chất phân loại. Báo cáo cho rằng, hiện tượng này xuất phát từ ba xu hướng chính.
Thứ nhất, nhu cầu cốt lõi của người dùng đang chuyển từ “hỏi đáp” nông cạn sang “làm việc” sâu hơn, tức là ngày càng nhiều sử dụng AI để tái cấu trúc mã, chỉnh sửa tài liệu, tạo ra các tài liệu và chạy thử nghiệm. Các kịch bản lập trình vốn đã có đặc điểm “ngữ cảnh dài, lặp nhiều vòng, xuất ra nhiều”, sẽ tiêu thụ lượng Token lớn.
Thứ hai, công nghệ Agent ra đời và phổ biến, làm tăng tiêu thụ Token. Agent sẽ chủ động lập kế hoạch, truy xuất, thực thi, phản hồi, gọi mô hình nhiều lần, khiến lượng Token tiêu thụ tự nhiên tăng theo từng bước.
Thứ ba là tăng cường độ suy luận. Suy nghĩ sâu hơn, lập luận dài hơn sẽ làm tăng rõ rệt lượng Token tiêu thụ cho đầu ra và các bước trung gian. Nhưng đối với nhà phát triển, điều này thường mang lại tỷ lệ thành công cao hơn và ít phải sửa lại, người dùng sẵn sàng “đầu tư Token nhiều hơn để đổi lấy hiệu quả”.
Chuỗi chuyển đổi này đồng nghĩa với việc Token không còn là “lượng truy cập” với chi phí biên gần như bằng 0 của thời internet, mà trở thành “nhiên liệu” không thể thiếu khi thực hiện các nhiệm vụ sản xuất.
Xu hướng này phù hợp với nhận định của các nhà sản xuất chip hàng đầu thế giới. Giám đốc điều hành Nvidia, Huang Renxun, trong cuộc họp báo cáo kết quả ngày 26 tháng 2, nhấn mạnh: “Tính toán chính là doanh thu”, “suy luận chính là doanh thu”. Ông nói rằng, không có khả năng tính toán, không thể tạo ra Token; không có Token, không thể tăng trưởng doanh thu. Trong thời đại AI, khả năng suy luận quyết định trực tiếp khả năng tạo ra doanh thu của khách hàng, và khả năng suy luận chính là tạo ra Token có thể thương mại hóa hiệu quả. Trong bối cảnh các trung tâm dữ liệu toàn cầu ngày càng đối mặt với hạn chế về điện năng, “hiệu suất/điện năng” (Performance per Watt) đã trở thành chỉ số quan trọng để đánh giá hiệu quả dịch vụ AI và khả năng tạo doanh thu.
Lý Quảng chia sẻ với phóng viên mỗi ngày rằng, mô hình kinh doanh dịch vụ AI đang chuyển từ “định giá theo lượng” sang “kết hợp nhiên liệu + kết quả”. Một mặt, giá của Token như “nhiên liệu” sẽ tiếp tục giảm nhờ tiến bộ công nghệ và quy mô, mặt khác, khi AI chuyển từ “công cụ hỏi đáp” sang “công cụ sản xuất” năng suất, các doanh nghiệp sẽ sẵn lòng trả phí trực tiếp cho “kết quả”, thúc đẩy các mô hình kinh doanh dựa trên đăng ký.
Lý Quảng dự đoán, trong tương lai, giá dịch vụ AI sẽ tất yếu hướng tới mô hình định giá cao độ tùy biến và linh hoạt. Bà cho biết, sự xuất hiện của thời đại Agent đồng nghĩa với độ phức tạp của nhiệm vụ ngày càng đa dạng, mô hình định giá đơn lẻ sẽ không thể đáp ứng hết các nhu cầu thương mại. Trong tương lai, chi phí tính toán, tần suất gọi, các thao tác đòi hỏi nhiều bước hay lập kế hoạch sẽ là các yếu tố ảnh hưởng đến giá cả, và một hệ thống định giá đa chiều, động sẽ trở thành xu hướng chính.
(Tham khảo: Báo Kinh tế Thường nhật)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Bùng nổ tháng 2! Lượng truy cập AI của Trung Quốc lần đầu vượt Mỹ, 4 mô hình lớn đứng đầu top 5 toàn cầu, nhu cầu về sức mạnh tính toán trong nước đang trải qua mức tăng trưởng theo cấp số nhân
Tháng 2, lượng gọi mô hình AI của Trung Quốc bùng nổ, lần đầu vượt Mỹ.
Dữ liệu từ nền tảng tổng hợp API mô hình AI lớn nhất thế giới OpenRouter cho thấy, từ ngày 9 đến 15, mô hình Trung Quốc với 4.12 nghìn tỷ Token đã lần đầu vượt qua mô hình Mỹ cùng kỳ với 2.94 nghìn tỷ Token.
Tuần từ ngày 16 đến 22, lượng gọi mô hình Trung Quốc tiếp tục tăng mạnh lên 5.16 nghìn tỷ Token, tăng 127% trong ba tuần, trong khi lượng gọi mô hình Mỹ giảm xuống còn 2.7 nghìn tỷ Token. Đồng thời, trong top 5 mô hình được gọi nhiều nhất toàn cầu, có tới 4 mô hình của Trung Quốc, sức tăng trưởng mạnh mẽ này không dựa vào một sản phẩm nổi bật duy nhất, mà là sự trỗi dậy tập thể của các nhà cung cấp AI Trung Quốc.
Token là đơn vị nhỏ nhất để AI xử lý văn bản. So với số người dùng, lượng gọi Token phản ánh chính xác hơn về cường độ sử dụng mô hình AI, mức độ gắn kết của người dùng và giá trị thương mại.
Các nhà cung cấp mô hình AI Trung Quốc đang chiếm lĩnh thị trường toàn cầu nhờ vào khả năng cập nhật nhanh và lợi thế về chi phí, nhu cầu tính toán nội địa đang tăng theo cấp số nhân.
Bảng xếp hạng thay đổi: Token Trung Quốc lần đầu vượt Mỹ, bốn mô hình lớn thống trị
OpenRouter, nền tảng tập hợp hàng trăm mô hình ngôn ngữ lớn toàn cầu, có hơn 5 triệu người dùng phát triển, hiện là nền tảng API mô hình AI lớn nhất thế giới. Do đó, dữ liệu gọi API của nền tảng này được xem là “bảng dự báo” chính xác nhất về xu hướng ứng dụng AI toàn cầu, phản ánh trực tiếp sự lựa chọn của các nhà phát triển, thể hiện mức độ phổ biến và sức cạnh tranh của mô hình trong thực tế.
Lưu ý rằng, phần lớn người dùng của nền tảng này là các nhà phát triển quốc tế, trong đó Mỹ chiếm tỷ lệ cao tới 47.17%, còn Trung Quốc chỉ 6.01%, giúp dữ liệu bảng xếp hạng phản ánh khách quan hơn sức hút thực sự của các mô hình AI Trung Quốc trên toàn cầu.
Phóng viên Báo Kinh tế Thường nhật (gọi tắt là phóng viên mỗi ngày) tổng hợp dữ liệu từ OpenRouter cho thấy, trong vòng một năm qua, lượng Token gọi các mô hình lớn toàn cầu đã tăng trưởng đáng kinh ngạc theo cấp số nhân. Tuần từ ngày 3 đến 9 tháng 3 năm 2025, top 10 mô hình của nền tảng này chỉ có tổng cộng 1.24 nghìn tỷ Token gọi. Đến giữa tháng 2 năm 2026, con số này đã tăng vọt lên 13.95 nghìn tỷ Token, chỉ chưa đầy một năm đã tăng hơn 10 lần.
Năm 2025, mô hình Mỹ là động lực chính của tăng trưởng thị trường, chiếm gần 70% tổng lượng Token gọi trong top 10 của nền tảng, trong khi mô hình Trung Quốc chỉ chiếm chưa tới 20%. Tuy nhiên, bước sang năm 2026, tốc độ tăng trưởng của mô hình Mỹ bắt đầu chững lại, còn mô hình Trung Quốc bắt đầu “bứt phá”.
Dữ liệu cho thấy, tuần đầu tháng 2 năm 2026 (từ ngày 2 đến 8), lượng gọi của mô hình Trung Quốc đã vọt lên 2.27 nghìn tỷ Token, gửi đi tín hiệu mạnh mẽ về cuộc đua.
Chỉ sau một tuần, trong tuần từ ngày 9 đến 15 tháng 2, lượng gọi của mô hình Trung Quốc đã đạt 4.12 nghìn tỷ Token, chính thức vượt qua mô hình Mỹ cùng kỳ với 2.94 nghìn tỷ Token, tạo nên bước đột phá lịch sử.
Sức tăng này không dừng lại, đến tuần từ ngày 16 đến 22 tháng 2, lượng gọi của mô hình Trung Quốc còn tăng lên 5.16 nghìn tỷ Token, tăng 127% trong ba tuần, mở rộng lợi thế dẫn đầu.
Sức tăng trưởng mạnh mẽ này không dựa vào một sản phẩm chủ đạo duy nhất, mà là sự trỗi dậy tập thể của các nhà cung cấp AI Trung Quốc.
Tuần từ ngày 16 đến 22 tháng 2 năm 2026, trong top 5 mô hình được gọi nhiều nhất nền tảng, có tới 4 mô hình của các nhà cung cấp Trung Quốc, gồm MiniMax M2.5, Kimi K2.5 của Moon Shadow, GLM-5 của Zhipu và V3.2 của DeepSeek. Tổng cộng, bốn mô hình này chiếm 85.7% tổng lượng gọi trong top 5.
Cụ thể, mô hình M2.5 của MiniMax ra mắt ngày 13 tháng 2 năm 2026, chưa đầy một tuần đã nhanh chóng đứng đầu bảng xếp hạng tuần. Trong tuần từ ngày 9 đến 15 tháng 2, tổng lượng gọi của nền tảng OpenRouter tăng vọt 3.21 nghìn tỷ Token, trong đó riêng M2.5 đã đóng góp 1.44 nghìn tỷ Token, con số ấn tượng.
Mô hình Kimi K2.5 của Moon Shadow ra mắt ngày 27 tháng 1, nhờ kiến trúc đa mô hình nguyên bản và khả năng xử lý song song mạnh mẽ của Agent, đã liên tục tăng lượng gọi. Mô hình này có thể điều phối tới 100 “Agent ảo” làm việc song song, nâng cao hiệu quả xử lý nhiệm vụ từ 3 đến 10 lần. Theo báo chí, sau chưa đầy một tháng ra mắt Kimi K2.5, tổng doanh thu của mô hình đã vượt cả doanh thu cả năm 2025, chủ yếu do lượng người dùng trả phí toàn cầu và lượng API gọi tăng vọt.
Mô hình chủ lực GLM-5 của Zhipu sau khi ra mắt ngày 12 tháng 2, nhờ vào cửa sổ ngữ cảnh dài 200K và tối ưu sâu cho các nhiệm vụ dài hạn của Agent, đã nhanh chóng mở rộng quy mô người dùng, lượng gọi trong tuần đầu tiên đạt 0.8 nghìn tỷ Token.
Trong năm qua, dù mô hình của Alibaba Qianwen ít xuất hiện trong bảng xếp hạng, nhưng báo cáo hợp tác của a16z và OpenRouter cho thấy, tổng lượng Token gọi của toàn bộ dòng mô hình này đứng thứ hai toàn cầu với 5.59 nghìn tỷ, chỉ sau DeepSeek với 14.37 nghìn tỷ.
Báo cáo của công ty tư vấn Frost & Sullivan cho biết, trong thị trường mô hình lớn B2B của Trung Quốc, nửa cuối năm 2025, dòng mô hình Qwen chiếm 32.1% lượng Token gọi trung bình hàng ngày, đứng đầu, gần gấp đôi so với 17.7% của nửa đầu năm, và vượt xa ByteDance Doubao (21.3%) cùng DeepSeek (18.4%).
Về cấu trúc thị trường mô hình lớn của Trung Quốc, Giáo sư Hu Yanping, Trường Đại học Kinh tế Thượng Hải, gọi đó là “đội quân AI Trung Quốc”.
Ông cho rằng, độ tập trung của thị trường công nghiệp không phải càng cao càng tốt, mà cần có nhiều doanh nghiệp hàng đầu tạo thành một cộng đồng công nghệ rộng lớn, thay vì chỉ vài ba “đại gia”, điều này tốt cho cạnh tranh sáng tạo và xây dựng hệ sinh thái nhân tài, cũng giúp tạo lợi thế tập thể trong cuộc cạnh tranh AI Trung-Mỹ.
Nhà đầu tư mạo hiểm nổi tiếng Andreessen Horowitz (a16z) nhận định, hiện tại, trong các startup AI tìm kiếm vốn tại Silicon Valley, 80% mô hình chính trong các buổi thuyết trình sử dụng mô hình mã nguồn mở của Trung Quốc.
Năng lực cạnh tranh: Chi phí chưa tới 1/10 của AI Mỹ, tại sao Token Trung Quốc lại rẻ?
Thứ nhất, ngoài khả năng cạnh tranh về hiệu năng, chi phí cực kỳ cạnh tranh là lợi thế không thể phủ nhận của các mô hình Trung Quốc. Ví dụ, giá của các mô hình như MiniMax M2.5 và GLM-5 trên nền tảng OpenRouter đều là 0.3 USD mỗi triệu Token, trong khi các sản phẩm đối thủ quốc tế như Claude Opus4.6 có giá tới 5 USD/triệu Token, cao gấp khoảng 16.7 lần.
Trong quá trình tạo nội dung (Output), chi phí còn chênh lệch lớn hơn. MiniMax M2.5 có giá 1.1 USD/triệu Token, GLM-5 là 2.55 USD, còn Claude Opus4.6 lên tới 25 USD, lần lượt gấp khoảng 22.7 và 9.8 lần.
Khoảng cách chi phí lớn như vậy trực tiếp ảnh hưởng đến quyết định của nhà phát triển khi chọn API.
Chênh lệch này chủ yếu xuất phát từ đổi mới kiến trúc thuật toán.
Giám đốc Frost & Sullivan Trung Quốc, Lý Quảng, phân tích trong cuộc phỏng vấn rằng, kiến trúc “Chuyên gia hỗn hợp (MoE)” là một trong những lý do chính giúp các mô hình Trung Quốc giảm đáng kể chi phí suy luận. Hiện nay, các mô hình như DeepSeek, Alibaba Tongyi Qianwen 3.5-Plus đều đã áp dụng rộng rãi kiến trúc MoE.
Điểm đặc biệt của kiến trúc MoE là nó chia nhỏ một mô hình lớn thành nhiều “chuyên gia” nhỏ hơn và một “mạng điều khiển”. Dù tổng số tham số của mô hình có thể rất lớn (hàng nghìn tỷ tham số), nhưng khi xử lý một nhiệm vụ, mạng điều khiển sẽ thông minh xác định tính chất của nhiệm vụ và chỉ kích hoạt (gọi) một phần nhỏ các chuyên gia phù hợp nhất để tính toán.
Phương thức “kích hoạt theo nhu cầu” này, khác với mô hình truyền thống “kích hoạt toàn bộ tham số”, giúp giảm đáng kể lượng tính toán và yêu cầu phần cứng. Dữ liệu cho thấy, sử dụng kiến trúc MoE có thể giảm 60% bộ nhớ GPU trong suy luận, đồng thời tăng gấp 19 lần khả năng xử lý Token trong một đơn vị thời gian. Đây chính là nguồn gốc của lợi thế giảm chi phí từ công nghệ.
Ngoài đổi mới về kiến trúc thuật toán, các nhà cung cấp AI Trung Quốc còn tích cực khám phá con đường “tích hợp dọc” để giảm chi phí cho từng Token. Ý tưởng chính là tích hợp sâu các phần mềm mô hình, hạ tầng điện toán đám mây trung tầng và chip AI, nhằm giải quyết các điểm nghẽn về tương thích phần cứng – phần mềm, tối đa hóa hiệu quả sử dụng tài nguyên tính toán.
Lý Quảng lấy ví dụ hệ thống “Tongyi-Cloud-Core” của Alibaba, cho biết, mô hình tích hợp dọc từ trên xuống này có thể tối ưu hóa phân bổ tài nguyên phần cứng, giảm đáng kể chi phí hạ tầng của dịch vụ AI. Các tối ưu hóa hệ thống này giúp giảm chi phí sản xuất Token hơn nữa.
JPMorgan dự báo lạc quan về thị trường Trung Quốc, dự kiến từ 2025 đến 2030, lượng Token tiêu thụ hàng năm sẽ tăng trưởng trung bình 330%, trong vòng 5 năm sẽ tăng 370 lần.
Giá trị biến đổi: Token từ “lượng truy cập internet” thành “nhiên liệu” của thời đại AI
Sự tăng trưởng theo cấp số nhân của lượng Token tiêu thụ phản ánh rõ ràng sự thay đổi căn bản trong cách người dùng sử dụng AI. Vai trò của AI đang từ một “công cụ hỏi đáp” đơn thuần, trở thành “công cụ sản xuất” có thể tham gia sâu vào quy trình làm việc, xử lý các nhiệm vụ phức tạp.
Trong báo cáo gần đây, Công ty chứng khoán Liên minh Minsheng đề cập khái niệm “lạm phát Token”. Điều này không có nghĩa là giá Token tăng, mà là cấu trúc tiêu thụ Token của từng người dùng trong một khoảng thời gian, trên mỗi đơn vị, có xu hướng tăng theo tính chất phân loại. Báo cáo cho rằng, hiện tượng này xuất phát từ ba xu hướng chính.
Thứ nhất, nhu cầu cốt lõi của người dùng đang chuyển từ “hỏi đáp” nông cạn sang “làm việc” sâu hơn, tức là ngày càng nhiều sử dụng AI để tái cấu trúc mã, chỉnh sửa tài liệu, tạo ra các tài liệu và chạy thử nghiệm. Các kịch bản lập trình vốn đã có đặc điểm “ngữ cảnh dài, lặp nhiều vòng, xuất ra nhiều”, sẽ tiêu thụ lượng Token lớn.
Thứ hai, công nghệ Agent ra đời và phổ biến, làm tăng tiêu thụ Token. Agent sẽ chủ động lập kế hoạch, truy xuất, thực thi, phản hồi, gọi mô hình nhiều lần, khiến lượng Token tiêu thụ tự nhiên tăng theo từng bước.
Thứ ba là tăng cường độ suy luận. Suy nghĩ sâu hơn, lập luận dài hơn sẽ làm tăng rõ rệt lượng Token tiêu thụ cho đầu ra và các bước trung gian. Nhưng đối với nhà phát triển, điều này thường mang lại tỷ lệ thành công cao hơn và ít phải sửa lại, người dùng sẵn sàng “đầu tư Token nhiều hơn để đổi lấy hiệu quả”.
Chuỗi chuyển đổi này đồng nghĩa với việc Token không còn là “lượng truy cập” với chi phí biên gần như bằng 0 của thời internet, mà trở thành “nhiên liệu” không thể thiếu khi thực hiện các nhiệm vụ sản xuất.
Xu hướng này phù hợp với nhận định của các nhà sản xuất chip hàng đầu thế giới. Giám đốc điều hành Nvidia, Huang Renxun, trong cuộc họp báo cáo kết quả ngày 26 tháng 2, nhấn mạnh: “Tính toán chính là doanh thu”, “suy luận chính là doanh thu”. Ông nói rằng, không có khả năng tính toán, không thể tạo ra Token; không có Token, không thể tăng trưởng doanh thu. Trong thời đại AI, khả năng suy luận quyết định trực tiếp khả năng tạo ra doanh thu của khách hàng, và khả năng suy luận chính là tạo ra Token có thể thương mại hóa hiệu quả. Trong bối cảnh các trung tâm dữ liệu toàn cầu ngày càng đối mặt với hạn chế về điện năng, “hiệu suất/điện năng” (Performance per Watt) đã trở thành chỉ số quan trọng để đánh giá hiệu quả dịch vụ AI và khả năng tạo doanh thu.
Lý Quảng chia sẻ với phóng viên mỗi ngày rằng, mô hình kinh doanh dịch vụ AI đang chuyển từ “định giá theo lượng” sang “kết hợp nhiên liệu + kết quả”. Một mặt, giá của Token như “nhiên liệu” sẽ tiếp tục giảm nhờ tiến bộ công nghệ và quy mô, mặt khác, khi AI chuyển từ “công cụ hỏi đáp” sang “công cụ sản xuất” năng suất, các doanh nghiệp sẽ sẵn lòng trả phí trực tiếp cho “kết quả”, thúc đẩy các mô hình kinh doanh dựa trên đăng ký.
Lý Quảng dự đoán, trong tương lai, giá dịch vụ AI sẽ tất yếu hướng tới mô hình định giá cao độ tùy biến và linh hoạt. Bà cho biết, sự xuất hiện của thời đại Agent đồng nghĩa với độ phức tạp của nhiệm vụ ngày càng đa dạng, mô hình định giá đơn lẻ sẽ không thể đáp ứng hết các nhu cầu thương mại. Trong tương lai, chi phí tính toán, tần suất gọi, các thao tác đòi hỏi nhiều bước hay lập kế hoạch sẽ là các yếu tố ảnh hưởng đến giá cả, và một hệ thống định giá đa chiều, động sẽ trở thành xu hướng chính.
(Tham khảo: Báo Kinh tế Thường nhật)