Vào ngày 23 tháng 2, một nhân viên của OpenAI đã công khai cáo buộc công ty xAI của Elon Musk, nói rằng kết quả kiểm tra chuẩn Điểm của mô hình AI mới nhất Grok3 do nó phát hành là sai lệch. Đáp lại, đồng sáng lập xAI Igor Babushkin khẳng định rằng công ty không sai. Biểu đồ của xAI cho thấy hai phiên bản của Grok3 - Grok3 Reasoning Beta và Grok3 mini Reasoning - vượt trội so với mô hình mạnh nhất hiện có của OpenAI, o3-mini-high, tại AIME 2025. Tuy nhiên, các nhân viên của OpenAI đã nhanh chóng chỉ ra trên nền tảng X rằng biểu đồ của xAI không bao gồm điểm AIME 2025 là o3-mini-cao trong điều kiện "cons@64". Babushkin lập luận trên nền tảng X rằng OpenAI đã đăng các biểu đồ thử nghiệm chuẩn Điểm gây hiểu lầm tương tự trong quá khứ. Mặc dù các biểu đồ này được sử dụng để so sánh hiệu suất của các mô hình của riêng họ.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Nhân viên của OpenAI đã công khai chỉ trích kết quả kiểm tra Điểm chuẩn của Grok3 là có tính đa nghĩa
Vào ngày 23 tháng 2, một nhân viên của OpenAI đã công khai cáo buộc công ty xAI của Elon Musk, nói rằng kết quả kiểm tra chuẩn Điểm của mô hình AI mới nhất Grok3 do nó phát hành là sai lệch. Đáp lại, đồng sáng lập xAI Igor Babushkin khẳng định rằng công ty không sai. Biểu đồ của xAI cho thấy hai phiên bản của Grok3 - Grok3 Reasoning Beta và Grok3 mini Reasoning - vượt trội so với mô hình mạnh nhất hiện có của OpenAI, o3-mini-high, tại AIME 2025. Tuy nhiên, các nhân viên của OpenAI đã nhanh chóng chỉ ra trên nền tảng X rằng biểu đồ của xAI không bao gồm điểm AIME 2025 là o3-mini-cao trong điều kiện "cons@64". Babushkin lập luận trên nền tảng X rằng OpenAI đã đăng các biểu đồ thử nghiệm chuẩn Điểm gây hiểu lầm tương tự trong quá khứ. Mặc dù các biểu đồ này được sử dụng để so sánh hiệu suất của các mô hình của riêng họ.