Hiểu rõ GPT-5.5 trong một bài viết: Từ hôm nay, OpenAI “không bán” Token nữa

Tác giả: Helen

Vào ngày 23 tháng 4 theo giờ địa phương, OpenAI chính thức ra mắt mô hình chủ lực thế hệ mới GPT-5.5, được định vị là “mức độ trí tuệ hoàn toàn mới hướng tới công việc thực tế”, cũng là bước tiến quan trọng hướng tới cách làm việc trên máy tính hoàn toàn mới.

Lần này, hai điểm chính được tập trung chú ý:

Thứ nhất là đột phá về hiệu suất: cùng độ trễ, mô hình lớn hơn nhưng tốc độ không chậm lại. GPT-5.5 có cửa sổ ngữ cảnh đạt 1 triệu Token, nhưng không chỉ là nâng cấp khả năng đơn thuần của GPT-5.4, mà còn đạt được trí tuệ cao hơn trong cùng mức độ trễ.

Thứ hai là trong quá trình huấn luyện, GPT-5.5 đã tham gia vào việc tối ưu hạ tầng suy luận của chính nó. Nói ngắn gọn, AI lần đầu tiên học cách tự điều chỉnh tham số của chính mình.

Trong thử nghiệm quy trình làm việc phức tạp Terminal-Bench 2.0, GPT-5.5 đạt điểm 82.7%, Claude Opus 4.7 đạt 69.4%, vượt hơn 13 điểm phần trăm; trong thử nghiệm AI tự vận hành máy tính thực tế OSWorld-Verified, tỷ lệ thành công đạt 78.7%, vượt qua mức trung bình của con người; trong bài kiểm tra các công việc kiến thức nghề nghiệp đa dạng GDPval với 44 lĩnh vực, 84.9% nhiệm vụ đạt hoặc vượt trình độ chuyên gia ngành.

Tuy nhiên, giá của GPT-5.5 cũng đã tăng rõ rệt.

Giá API là 5 USD cho mỗi triệu Token đầu vào, 30 USD cho đầu ra, gấp đôi so với GPT-5.4 (2.50 USD/triệu Token đầu vào, 15 USD/đầu ra), nhưng chính thức nhấn mạnh rằng số Token cần thiết để hoàn thành cùng nhiệm vụ giảm đáng kể, tổng chi phí có thể không tăng đáng kể. API GPT-5.5 Pro có giá 30 USD/triệu Token đầu vào, 180 USD/đầu ra. Đặt hàng theo số lượng lớn và giá linh hoạt được giảm còn một nửa, ưu tiên xử lý với giá gấp 2.5 lần giá tiêu chuẩn.

Trong ChatGPT, GPT-5.5 ra mắt dưới dạng “GPT-5.5 Thinking”, dần thay thế các phiên bản trước.

Một điểm mới nhỏ là: mô hình bắt đầu suy nghĩ trước bằng một đoạn tóm tắt ý tưởng, người dùng có thể chêm lời nói bất cứ lúc nào trong quá trình thực thi để điều chỉnh hướng đi.

Nói ngắn gọn về ý nghĩa của GPT-5.5: các mô hình trước đây là tập hợp các khả năng, còn GPT-5.5 gần hơn một hệ thống làm việc có thể lập kế hoạch, kiểm tra, và liên tục thúc đẩy tiến trình.

01 84.9% nhiệm vụ đạt chuẩn chuyên nghiệp

So sánh GPT-5.5 và các đối thủ trong các bài kiểm tra tiêu chuẩn như Terminal-Bench 2.0, GDPval, OSWorld-Verified

Trước tiên là hiệu suất trong các tình huống nghề nghiệp thực tế. OpenAI dùng một chuẩn gọi là “GDPval”, yêu cầu mô hình hoàn thành toàn bộ chuỗi nhiệm vụ nghề nghiệp. Bài kiểm tra bao gồm 44 lĩnh vực như mô hình tài chính, phân tích pháp lý, báo cáo khoa học dữ liệu, lập kế hoạch vận hành, v.v.

Kết quả cho thấy: GPT-5.5 trong 84.9% nhiệm vụ đạt hoặc vượt trình độ chuyên gia ngành. Để so sánh, GPT-5.4 là 83.0%, Claude Opus 4.7 là 80.3%, Gemini 3.1 Pro chỉ đạt 67.3%.

Khoảng cách này không chỉ thể hiện qua điểm tổng thể. Trong các nhiệm vụ mô hình bảng tính, GPT-5.5 trong thử nghiệm nội bộ đạt 88.5%; các nhiệm vụ mô hình cấp ngân hàng đầu tư cũng dẫn trước thế hệ trước. Phản hồi từ các người thử nghiệm ban đầu cũng khá nhất quán: câu trả lời của GPT-5.5 Pro về tính toàn diện, cấu trúc và tính thực tiễn rõ rệt hơn GPT-5.4 Pro, đặc biệt trong các lĩnh vực thương mại, pháp lý, giáo dục và khoa học dữ liệu.

Chỉ nhìn số liệu dễ khiến người ta quen mắt, lần này OpenAI còn trực tiếp mở cửa văn phòng để bạn xem.

OpenAI cho biết, hơn 85% nhân viên trong công ty mỗi tuần đều dùng Codex, bao gồm các bộ phận tài chính, truyền thông, marketing, sản phẩm, khoa học dữ liệu. Nhóm truyền thông dùng nó phân tích dữ liệu các buổi phát biểu trong sáu tháng, xây dựng quy trình phân loại tự động; nhóm tài chính dùng nó rà soát 24.771 mẫu biểu thuế K-1, tổng cộng 71.637 trang, hoàn thành sớm hơn hai tuần so với năm ngoái; nhóm mở rộng thị trường tự động tạo báo cáo hàng tuần, mỗi người tiết kiệm từ 5 đến 10 giờ.

Đây không còn là demo trong phòng thí nghiệm, mà đã trở thành thói quen công việc hàng ngày.

02 Mô hình lập trình tự chủ mạnh nhất

OpenAI tuyên bố, GPT-5.5 hiện là mô hình lập trình tự chủ mạnh nhất của họ.

Trong Terminal-Bench 2.0 (kiểm tra quy trình lệnh phức tạp, cần lập kế hoạch, lặp lại và phối hợp công cụ), GPT-5.5 đạt 82.7%, so với GPT-5.4 là 75.1%, tăng gần 8 điểm phần trăm, đồng thời tiêu thụ Token ít hơn. Trong SWE-Bench Pro (đánh giá khả năng giải quyết vấn đề trên GitHub trong một lần), GPT-5.5 đạt 58.6%. Trong đánh giá nội bộ Expert-SWE (nhiệm vụ lập trình dài hạn, trung bình mất khoảng 20 giờ người làm), GPT-5.5 cũng vượt GPT-5.4.

Biểu đồ phân tán của Terminal-Bench 2.0 và Expert-SWE

Dưới sự thúc đẩy của Codex, GPT-5.5 đã có thể bắt đầu từ một lời gợi ý, tự hoàn thành toàn bộ quy trình phát triển từ tạo mã, kiểm thử chức năng đến gỡ lỗi hình ảnh.

Các ví dụ trình diễn của OpenAI cho thấy, dự án nhiệm vụ không gian dựa trên dữ liệu quỹ đạo thực của NASA, hỗ trợ điều khiển 3D tương tác, mô phỏng quỹ đạo đạt độ chính xác vật lý thực; cảm biến động đất kết nối dữ liệu trực tiếp và hoàn thành trực quan hóa, cho thấy mô hình đã có khả năng gọi API bên ngoài, xử lý dữ liệu động và hiển thị theo thời gian thực.

Về phản hồi người dùng, CEO Dan Shipper của Every kể lại một trải nghiệm: anh từng gặp lỗi sau khi ra mắt, tự sửa trong vài ngày mà không xong, cuối cùng phải nhờ kỹ sư giỏi nhất của công ty viết lại một phần hệ thống. Sau khi GPT-5.5 ra đời, anh thử nghiệm — đưa mô hình về trạng thái lỗi chưa sửa, xem nó có thể tự đưa ra giải pháp giống kỹ sư không. GPT-5.4 không làm được, GPT-5.5 đã làm được. Anh nhận xét: “Đây là mô hình lập trình rõ ràng nhất mà tôi từng dùng.”

Một kỹ sư của Nvidia còn nhận xét thẳng thắn hơn: “Mất quyền truy cập GPT-5.5, cảm giác như bị cắt bỏ chân tay.”

CEO Michael Truell của Cursor bổ sung: GPT-5.5 thông minh hơn, bền bỉ hơn GPT-5.4, có thể duy trì các nhiệm vụ dài và phức tạp lâu hơn mà không dừng lại sớm — điều này đúng là điều cần thiết trong công việc kỹ thuật.

03 Công việc kiến thức: AI lần đầu thực sự “dùng” máy tính

Trong thử nghiệm OSWorld-Verified (kiểm tra khả năng tự vận hành máy tính thực tế của mô hình), GPT-5.5 thành công 78.7%, cao hơn GPT-5.4 là 75.0%, và Claude Opus 4.7 là 78.0%.

Đây không phải là phân tích qua ảnh chụp màn hình, mà là điều khiển thực sự trên màn hình: thấy giao diện, nhấn, nhập dữ liệu, chuyển đổi giữa các công cụ, cho đến hoàn thành nhiệm vụ. GPT-5.5 lần đầu tiên cho người ta cảm nhận rõ ràng, AI có thể thực sự cùng bạn sử dụng chung một chiếc máy tính.

Video trình diễn mô hình mô phỏng tài chính

Trong thử nghiệm quy trình dịch vụ khách hàng Tau2-bench, GPT-5.5 đạt độ chính xác 98.0% mà không cần gợi ý, GPT-5.4 chỉ 92.8%.

Điều này cho thấy mô hình hiểu rõ ý định nhiệm vụ đến mức nào, không cần thiết kế kỹ lưỡng prompt vẫn có thể xử lý các quy trình đối thoại phức tạp nhiều bước.

Về khả năng tìm kiếm công cụ, GPT-5.5 đạt 84.4% trong bài kiểm tra BrowseComp, GPT-5.5 Pro đạt 90.1%, cho thấy trong các nhiệm vụ nghiên cứu đòi hỏi tổng hợp, suy luận từ nhiều nguồn thông tin, mô hình thể hiện khả năng truy xuất và tích hợp dữ liệu liên tục rất mạnh.

04 Nghiên cứu khoa học: Hỗ trợ phát hiện chứng minh toán học mới

Trong lần ra mắt này, khả năng của GPT-5.5 trong lĩnh vực nghiên cứu có thể là phần gây ngạc nhiên nhất.

Trước đây, khi nói về AI làm nghiên cứu, phần lớn là “công cụ hỗ trợ”, dùng để tra tài liệu, viết mã, sắp xếp dữ liệu. Nhưng lần này, vai trò của nó rõ ràng đã tiến xa hơn, bắt đầu tham gia vào các bước trung tâm: suy luận phức tạp, thậm chí là phát hiện chính.

Trong GeneBench (bài kiểm tra phân tích dữ liệu đa giai đoạn trong di truyền học và sinh học định lượng), GPT-5.5 đạt 25.0%, GPT-5.4 là 19.0%. Những nhiệm vụ này thường tương đương với công việc của các chuyên gia trong nhiều ngày, mô hình cần suy luận trong dữ liệu có thể sai, đối phó với các yếu tố gây nhiễu ẩn, và thực thi các phương pháp thống kê hiện đại một cách chính xác.

Biểu đồ cho thấy, khi số Token đầu ra tăng, điểm của GPT-5.5 luôn dẫn trước GPT-5.4, đặc biệt rõ rệt tại khoảng 15.000 Token — nghĩa là, đối với các nhiệm vụ dài đòi hỏi suy luận sâu, lợi thế của GPT-5.5 sẽ càng rõ rệt khi độ phức tạp tăng lên.

Trong BixBench (chuẩn đánh giá phân tích sinh học và dữ liệu thực tế), GPT-5.5 đạt 80.5%, dẫn trước GPT-5.4 là 74.0%, đứng trong top các mô hình có điểm cao nhất.

Điều thực sự gây chú ý là một ví dụ cụ thể: phiên bản nội bộ của GPT-5.5 tích hợp framework công cụ tùy chỉnh, giúp phát hiện ra một chứng minh toán học mới về số Ramsey, và được xác nhận trong công cụ chứng minh hình thức Lean. Số Ramsey là đối tượng trung tâm trong toán tổ hợp, thành tựu trong lĩnh vực này rất hiếm, độ khó cực cao. Đây không chỉ là AI cung cấp mã hoặc giải thích, mà thực sự đã đóng góp một chứng lý toán học.

Trong thực tế, cũng có những minh chứng thuyết phục. Giáo sư Derya Unutmaz của Jackson Laboratory dùng GPT-5.5 Pro phân tích dữ liệu gene biểu hiện của 62 mẫu, gần 28.000 gene, tạo báo cáo nghiên cứu chi tiết, rút ra các phát hiện và câu hỏi nghiên cứu then chốt — ông nói, công việc này thường mất hàng tháng của cả nhóm.

Giáo sư trợ lý Bartosz Naskręcki của Đại học Adam Mickiewicz ở Poznań chỉ với một prompt, dùng Codex của GPT-5.5 trong 11 phút đã xây dựng một ứng dụng hình học đại số, trực quan hóa giao tuyến của hai mặt phẳng bậc hai và chuyển đổi đường cong thành mô hình Weierstrass. Các hệ số phương trình hiển thị trực tiếp trên màn hình có thể dùng cho các nghiên cứu toán học tiếp theo, toàn bộ quá trình từ prompt đến công cụ nghiên cứu hoạt động độc lập.

Ảnh chụp màn hình ứng dụng hình học đại số do Giáo sư Naskręcki xây dựng — trực quan hóa giao tuyến mặt phẳng bậc hai và tính toán hệ số Weierstrass theo thời gian thực

Đánh giá của Brandon White, đồng sáng lập Axiom Bio, còn thẳng thắn hơn: “Nếu OpenAI giữ đà này, nền tảng phát hiện thuốc mới sẽ thay đổi trong năm tới.”

05 Hiệu quả suy luận: AI lần đầu tự tối ưu hạ tầng

Một chi tiết dễ bị bỏ qua trong lần ra mắt này, nhưng có thể là tiến bộ công nghệ đáng chú ý nhất.

GPT-5.5 là mô hình lớn hơn, mạnh hơn, nhưng trong dịch vụ thực tế, độ trễ mỗi Token vẫn ngang bằng GPT-5.4. Để duy trì khả năng mạnh hơn trong khi giữ độ trễ như cũ, OpenAI đã thiết kế lại toàn bộ hệ thống suy luận — trong đó Codex và chính GPT-5.5 đã trực tiếp tham gia tối ưu.

Qua biểu đồ chỉ số trí tuệ Artificial Analysis, có thể thấy rõ điều này: trục hoành là tổng số Token đầu ra (thang logarithm), trục tung là điểm trí tuệ tổng hợp. Đường của GPT-5.5 không chỉ vượt trội về điểm số so với GPT-5.4, Claude Opus 4.7 và Gemini 3.1 Pro Preview, mà còn đạt được điểm tương đương với các mô hình khác cần tiêu thụ nhiều Token hơn — khả năng mạnh hơn, chi phí thấp hơn, chính là biểu hiện rõ ràng của “hiệu quả nâng cao”.

Biểu đồ chỉ số trí tuệ Artificial Analysis

Cụ thể, vấn đề của nhóm là cân bằng tải: trước đây chia nhỏ yêu cầu thành các khối cố định để cân bằng GPU, nhưng phân khối tĩnh không tối ưu cho mọi dạng lưu lượng. Codex đã phân tích dữ liệu lưu lượng sản xuất trong nhiều tuần, viết ra thuật toán gợi ý tùy chỉnh, giúp tăng tốc sinh Token hơn 20%.

GPT-5.5 phối hợp thiết kế, huấn luyện và triển khai cùng hệ thống của NVIDIA GB200 và GB300 NVL72. Nói cách khác, thế hệ mô hình này đã tham gia tối ưu hóa kiến trúc suy luận của chính dịch vụ — không phải ẩn dụ, mà đúng nghĩa “AI đã cải tiến hệ thống của chính nó”.

06 An ninh mạng: Năng lực nâng cao, kiểm soát siết chặt đồng bộ

GPT-5.5 rõ ràng có bước tiến trong khả năng an ninh mạng. Trong bài kiểm tra CyberGym, GPT-5.5 đạt 81.8%, GPT-5.4 là 79.0%, Claude Opus 4.7 là 73.1%. Trong thử thách “chiến dịch cướp cờ” (CTF) nội bộ, GPT-5.5 đạt 88.1%, GPT-5.4 là 83.7%.

Biểu đồ cột CyberGym và biểu đồ điểm các nhiệm vụ CTF

OpenAI xếp hạng khả năng an ninh mạng và sinh học/hoá học của GPT-5.5 ở mức “cao” trong khung khẩn cấp, chưa đạt “nguy cấp”, nhưng rõ ràng có tiến bộ so với thế hệ trước. Đồng thời, họ cũng thừa nhận rằng bộ phân loại rủi ro mới được triển khai chặt chẽ hơn “một phần người dùng ban đầu có thể cảm thấy không tiện”, và sẽ tiếp tục điều chỉnh.

Để cân bằng giữa phòng thủ và hạn chế truy cập, OpenAI giới thiệu “Chương trình truy cập đáng tin cậy về an ninh mạng”: các nhà nghiên cứu an toàn và phòng thủ hạ tầng quan trọng đủ điều kiện có thể xin cấp quyền truy cập linh hoạt hơn, để sử dụng các khả năng an ninh mạng cao cấp với ít trở ngại hơn.

Về lý do, các khả năng liên quan đến an ninh mạng, thậm chí sinh học, phần lớn đều có xu hướng lan rộng không thể đảo ngược. Thay vì cố gắng hạn chế hoàn toàn, họ chọn cách khác — ưu tiên cho những người làm phòng thủ, để họ tiếp cận sớm nhất các công cụ tối tân nhất. Nói ngắn gọn, đây không phải vấn đề “có mở hay không”, mà là “trước cho ai dùng”.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim