Cùng với dòng chảy vốn đầu tư vào trí tuệ nhân tạo, tồn tại một danh sách dài và phần lớn chưa được giải quyết các trở ngại thực tế để triển khai rộng rãi. Trong số đó là ô nhiễm dữ liệu đệ quy. Các mô hình ngôn ngữ lớn tạo ra khối lượng lớn nội dung, sau đó được sử dụng làm tài liệu huấn luyện cho thế hệ mô hình tiếp theo. Các lỗi và ảo giác càng ngày càng tăng theo từng chu kỳ. Điều này giống như sao chép nhiều lần của một bản sao: chất lượng liên tục giảm, và cuối cùng không thể xác định nguồn gốc ban đầu là gì. Ngành công nghiệp đã bắt đầu sử dụng dữ liệu tổng hợp để bù đắp cho sự thiếu hụt nội dung chất lượng cao của con người — tuy nhiên, điều này có thể thúc đẩy sự suy thoái nhanh hơn chứ không phải loại bỏ nó. Vấn đề nhiễm độc dữ liệu còn nghiêm trọng hơn nữa. Những kẻ tấn công có thể cố ý làm sai lệch bộ dữ liệu huấn luyện, và một khi đã bị nhiễm “chất độc”, nó sẽ còn tồn tại trong mô hình mãi mãi. Đặc biệt nguy hiểm trong kịch bản quân sự: AI được huấn luyện để nhận diện đồng minh và kẻ thù dựa trên dữ liệu bị xâm phạm, sẽ chỉ phát hiện ra điểm yếu tiềm ẩn trong thời điểm cao trào của xung đột thực sự. Đã có ghi nhận rằng để tấn công các mô hình ngôn ngữ mọi kích cỡ, chỉ cần 250 tài liệu độc hại — điều này biến các cuộc tấn công vào dữ liệu huấn luyện không còn là mối đe dọa giả thuyết nữa, mà trở thành một vấn đề an ninh mạng thực tế.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim