🚨 ANTHROPIC ĐẶT MỐI QUAN HỆ MỚI VỚI CLAUDE OPUS 4.7


Đây là một bước tiến đo lường được trong hiệu suất của tác nhân.
64,3% trên SWE-bench, tăng từ 53,4%
87,6% trên mã hóa tác nhân đã xác minh
77,3% trên sử dụng công cụ mở rộng
78,0% trên các nhiệm vụ máy tính thực tế
Nó cũng cải thiện những lĩnh vực mà các mô hình thường suy giảm:
79,3% trên tìm kiếm tác nhân
64,4% trên phân tích tài chính
91,5% trên hỏi đáp đa ngôn ngữ
Và quan trọng, khả năng lý luận trong bối cảnh dài vẫn giữ vững:
Hơn 90% khả năng lý luận hình ảnh với công cụ
94,2% trên các chuẩn đầu ra cấp sau đại học
DƯỚI ĐÂY LÀ ĐIỂM CHÍNH:
Đây không phải về điểm số đỉnh cao.
Nó về tính nhất quán trên các lĩnh vực.
Opus 4.7 không chiếm ưu thế trong mọi danh mục.
Nhưng nó hoạt động đáng tin cậy trên tất cả chúng.
Đó là điều các hệ thống sản xuất cần.
Biên giới không còn chỉ là trí tuệ nữa.
Nó là sự ổn định dưới tải trọng thực tế.
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim