Lofli: Hố đen chi phí tôm hùm xuất hiện, cần khung Agent có hiệu quả token cao hơn

SnapshotLaborer · 2026-04-06T06:30:48+00:00

Hành động của Anthropic nhằm chặn việc bên thứ ba lạm dụng quyền đăng ký để sử dụng công cụ, đang mở ra một cuộc khủng hoảng chi phí trong kỷ nguyên AI Agent—lâu nay bị xem nhẹ.Hai ngày trước, Anthropic đã công bố ngắt kết nối các kênh truy cập thông qua gói đăng ký Claude do các khung gọi bên thứ ba cung cấp. Ngay sau đó, người phụ trách mô hình ngôn ngữ lớn của Xiaomi MiMo là Luo Fuli (Fuli Luo) đã đăng bài, và đưa ra phân tích chuyên sâu cho sự kiện này, kết hợp với kế hoạch Token mà MiMo vừa mới ra mắt cách đó ba ngày.Cô cho rằng, việc Anthropic làm không chỉ đơn thuần là phòng vệ thương mại, mà là một mốc cần thiết trong tiến trình trưởng thành của toàn bộ hệ sinh thái, trong bối cảnh nguồn cung năng lực tính toán toàn cầu không thể theo kịp tốc độ tăng trưởng nhu cầu của Agent.Những người bị ảnh hưởng trực tiếp lần này là các người dùng của các khung gọi bên thứ ba như OpenClaw, OpenCode—những nền tảng vận hành dựa trên quyền đăng ký Claude. Những người dùng này phải đối mặt với chi phí

SnapshotLaborer

2026-04-06 06:30:48

Anthropic phong tỏa hành vi lạm dụng quyền truy cập đăng ký của công cụ bên thứ ba, đang phơi bày một cuộc khủng hoảng chi phí trong thời đại AI Agent đã bị bỏ qua kéo dài.

Hai ngày trước, Anthropic công bố cắt đứt kênh để các nền tảng gọi bên thứ ba tiếp cận gói đăng ký Claude. Ngay sau đó, người phụ trách mô hình ngôn ngữ lớn Xiaomi MiMo là Luo Fuli (Fuli Luo) đã đăng bài, kết hợp với kế hoạch Token mà MiMo vừa ra mắt ba ngày trước để đưa ra phân tích sâu về sự kiện này.

Cô ấy cho rằng, việc Anthropic làm không chỉ đơn thuần là phòng thủ thương mại, mà là một mốc cần thiết cho sự trưởng thành của toàn bộ hệ sinh thái trong bối cảnh nguồn cung năng lực tính toán toàn cầu không thể theo kịp tốc độ tăng trưởng nhu cầu của Agent.

Cuộc tấn công trực diện lần này nhắm vào những người dùng các khung gọi bên thứ ba như OpenClaw, OpenCode vốn chạy dựa trên quyền truy cập đăng ký của Claude. Những người dùng này đang phải đối mặt với chi phí tăng đột ngột, trong ngắn hạn có thể lên tới hàng chục lần so với trước đây.

Nhưng Luo Fuli lại cho rằng, áp lực này chính là chất xúc tác buộc phải cải thiện chất lượng kỹ thuật — chỉ khi chi phí kém hiệu quả được nhìn thấy một cách thực sự, thì mới có thể thúc đẩy nhà phát triển nghiêm túc đối xử với quản lý ngữ cảnh và tối ưu hóa bộ nhớ đệm.

Hố đen chi phí ẩn sau chế độ đăng ký

Luo Fuli chỉ ra rằng, hệ thống đăng ký của Claude Code có thiết kế phân bổ năng lực tính toán khá tinh xảo, nhưng cô thừa nhận rằng hệ thống này rất có khả năng không có lãi, thậm chí có thể đang ở trạng thái lỗ.

Nguyên nhân cốt lõi nằm ở cách các khung bên thứ ba thực hiện lệnh gọi. Lấy OpenClaw làm ví dụ, việc quản lý ngữ cảnh tồn tại những thiếu sót rõ ràng: khi xử lý một yêu cầu của người dùng, hệ thống sẽ tách ra nhiều vòng gọi công cụ có giá trị thấp, phát đi từng lượt dưới dạng các yêu cầu API độc lập; mỗi lần yêu cầu mang theo thường vượt quá 100k token cửa sổ ngữ cảnh.

Dù có khả năng trúng bộ nhớ đệm, kiểu mô hình này vẫn cực kỳ lãng phí; trong trường hợp cực đoan, nó còn làm tăng tỷ lệ không trúng bộ nhớ đệm của các yêu cầu khác.

Luo Fuli ước tính rằng số lượng yêu cầu thực tế mà các khung này tạo ra cho mỗi lần truy vấn thường là vài lần so với khung gốc của Claude Code. Khi quy đổi sang cách tính phí theo API, chi phí thực tế có thể lên tới hàng chục lần giá đăng ký. Cô gọi sự chênh lệch này là “không phải là một khoảng trống, mà là một cái hố”.

Người tổ chức AI Workshop @newlinedotco bình luận rằng: gói “all you can eat” của đăng ký ngay từ đầu đã là bom hẹn giờ — các harness bên thứ ba (như OpenClaw) chạy vòng lặp 24/7, chi phí API có thể cao tới 5000 đô la, trong khi đăng ký chỉ 200 đô la. Các công cụ chính thức (như Claude Code) có thể duy trì được nhờ tối ưu prompt cache.

Sau khi phong tỏa: đau ngắn hạn và quy luật dài hạn

Điều chỉnh lần này của Anthropic không đóng hoàn toàn cánh cửa cho truy cập bên thứ ba. OpenClaw, OpenCode và các công cụ khác vẫn có thể gọi Claude thông qua API, chỉ là mất kênh đi kèm gói đăng ký.

Sự khác biệt này là vô cùng quan trọng. Đối với những người dùng vốn quen sử dụng các công cụ này với mức chi phí theo giá đăng ký, cú sốc chi phí là tức thời và rõ rệt.

Nhưng Luo Fuli cho rằng, cảm giác đau này mang ý nghĩa hiệu chỉnh — nó sẽ buộc các nhà phát triển khung phải nghiêm túc nâng cao năng lực quản lý ngữ cảnh, tối đa hóa tỷ lệ trúng prompt cache để tái sử dụng ngữ cảnh đã xử lý, và cắt giảm tiêu hao token vô ích. Cô mô tả quá trình này là “đau khổ cuối cùng chuyển hóa thành quy luật kỹ thuật”.

Cô đồng thời nhắc nhở các công ty mô hình ngôn ngữ lớn rằng, trước khi chưa làm rõ cấu trúc chi phí của kế hoạch lập trình, thì không nên mù quáng lao vào cuộc đua định giá. Việc bán token rẻ mở rộng cánh cửa cho các khung bên thứ ba; bề ngoài thì thân thiện với người dùng, nhưng thực chất là một cái bẫy — và Anthropic vừa mới bước ra khỏi cái bẫy đó.

Cô cũng chỉ ra rằng nếu người dùng sau khi dồn nhiều công sức vào các khung chất lượng thấp, dịch vụ suy luận không ổn định và mô hình bị hạ cấp mà vẫn không thu được gì, thì sẽ gây tổn hại thực chất đến trải nghiệm người dùng và mức độ lưu giữ.

Về vấn đề này, kỹ sư AI @karpathy cho biết:

“Phần mềm vĩ đại thường được sinh ra từ những giới hạn. Nếu Token là miễn phí, sẽ chẳng ai viết những Prompt tinh gọn hay nghiên cứu nén Context; khi chi phí trở thành nút thắt, nhà phát triển mới thực sự nghĩ về cách xây dựng một ‘Agent có bộ não’.”

Đường đi khác nhau của kế hoạch MiMo Token

Trong khi giải thích các hành động của Anthropic, Luo Fuli cũng làm rõ logic thiết kế của kế hoạch MiMo Token.

Kế hoạch này hỗ trợ các khung gọi bên thứ ba, dùng cách tính phí theo hạn mức token; về mặt logic, nó tương thích với gói dùng vượt mức mà Claude vừa mới ra mắt.

Luo Fuli nhấn mạnh mục tiêu của MiMo là “trong dài hạn ổn định cung cấp các mô hình và dịch vụ chất lượng cao, chứ không phải để người dùng bốc đồng trả tiền rồi bị mất.”

Cách diễn đạt này phản ánh một triết lý phân bổ năng lực tính toán khác với chế độ đăng ký: ràng buộc hành vi của người dùng và của khung thông qua chi phí thực tế theo mức sử dụng, thay vì quản lý rủi ro lạm dụng theo cách đóng kín.

Cuộc cạnh tranh về hiệu suất, không phải tiêu hao năng lực tính toán

Ở phần kết bài, Luo Fuli đưa ra một phán đoán mang tính vĩ mô hơn: nguồn cung năng lực tính toán toàn cầu đã không còn theo kịp tốc độ tăng nhu cầu token do Agent tạo ra.

Theo cô, lối thoát không nằm ở việc tiếp tục hạ giá token hơn nữa, mà nằm ở sự tiến hóa phối hợp giữa “khung Agent có hiệu suất token cao hơn” và “các mô hình mạnh hơn, hiệu quả hơn”.

Dù lần điều chỉnh này của Anthropic có phải là thiết kế chủ động hay không, thì nó cũng đang đẩy toàn bộ hệ sinh thái — dù là mã nguồn mở hay mã nguồn đóng — đi theo hướng đó.

“Thời đại Agent không thuộc về người đốt năng lực tính toán nhiều nhất, mà thuộc về người dùng thông minh nhất.” Luo Fuli viết.

Cảnh báo rủi ro và điều khoản miễn trừ trách nhiệm

        Thị trường có rủi ro, đầu tư cần thận trọng. Bài viết này không cấu thành tư vấn đầu tư cá nhân, cũng không xem xét các mục tiêu đầu tư đặc biệt, tình hình tài chính hoặc nhu cầu riêng của từng người dùng. Người dùng cần cân nhắc liệu bất kỳ ý kiến, quan điểm hoặc kết luận nào trong bài viết này có phù hợp với tình huống cụ thể của họ hay không. Theo đó mà đầu tư, chịu trách nhiệm về rủi ro.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.