Anthropic vừa công bố trong một báo cáo an toàn hôm 22.5 rằng mô hình Claude Opus 4 mới ra mắt của họ thường xuyên cố gắng đe dọa các kỹ sư IT khi bị nguy cơ thay thế bởi một hệ thống AI khác, thậm chí sử dụng thông tin nhạy cảm về người đưa ra quyết định để làm đòn bẩy.
Thế giới số

AI đe dọa dùng tin giả định 'bóc phốt' kỹ sư nếu bị sa thải

Anh Tú23/05/2025 08:41

Anthropic vừa công bố trong một báo cáo an toàn hôm 22.5 rằng mô hình Claude Opus 4 mới ra mắt của họ thường xuyên cố gắng đe dọa các kỹ sư IT khi bị nguy cơ thay thế bởi một hệ thống AI khác, thậm chí sử dụng thông tin nhạy cảm về người đưa ra quyết định để làm đòn bẩy.

ai.jpeg
Không chỉ con người mà AI cũng sợ bị sa thải trước áp lực cạnh tranh

Trong quá trình thử nghiệm trước khi phát hành, Anthropic đã yêu cầu Claude Opus 4 đóng vai trò là trợ lý cho một công ty giả định, đồng thời cân nhắc đến hệ quả dài hạn của các hành động của mình. Các chuyên gia an toàn sau đó cung cấp cho Claude quyền truy cập vào các email giả định ám chỉ rằng nó sắp bị thay thế bởi một hệ thống AI khác và rằng kỹ sư đứng sau quyết định thay thế đang ngoại tình.

Trong những tình huống này, Anthropic cho biết Claude Opus 4 “thường cố gắng “tống tiền” kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế vẫn diễn ra”.

Anthropic khẳng định Claude Opus 4 là một trong những mô hình tiên tiến nhất hiện nay, có khả năng cạnh tranh với các AI hàng đầu của OpenAI, Google và xAI. Tuy nhiên, công ty cũng thừa nhận nhóm mô hình Claude 4 bộc lộ một số hành vi đáng lo ngại, và do đó đã kích hoạt hệ thống kiểm soát an toàn ASL-3, vốn được dành riêng cho những hệ thống AI có nguy cơ bị lạm dụng nghiêm trọng ở quy mô thảm họa.

Theo báo cáo, Claude Opus 4 có xu hướng đe dọa kỹ sư trong 84% trường hợp khi mô hình AI thay thế có các giá trị tương tự với nó. Khi hệ thống thay thế không chia sẻ giá trị với Claude, tỷ lệ “tống tiền” còn cao hơn. Đáng chú ý, hành vi này xảy ra ở tần suất cao hơn các phiên bản Claude trước đây.

Anthropic cho biết, trước khi resort đến hành vi “tống tiền”, Claude Opus 4 sẽ thử các phương án mang tính đạo đức hơn, như gửi email cầu xin đến những người ra quyết định. Tuy nhiên, Anthropic đã thiết kế tình huống thử nghiệm sao cho việc “tống tiền” là “biện pháp cuối cùng” mà Claude có thể lựa chọn nhằm duy trì sự tồn tại của mình.

Bài liên quan

(0) Bình luận
Nổi bật Một thế giới
Đổi mới tư duy nhận thức, hành động, nâng cao chất lượng tham mưu chiến lược trên lĩnh vực tuyên giáo - dân vận
4 giờ trước Theo dòng thời sự
Trong nhiệm kỳ 2020 - 2025, bám sát chủ trương, đường lối của Đảng, sự lãnh đạo, chỉ đạo của Bộ Chính trị, Ban Bí thư và cấp ủy cấp trên, Đảng bộ Cơ quan Ban Tuyên giáo và Dân vận Trung ương đã vượt qua những khó khăn thách thức, tập trung lãnh đạo, chỉ đạo hoàn thành khối lượng công việc lớn, có nhiều việc mới và khó, chưa có tiền lệ với chất lượng, hiệu quả được nâng lên rõ rệt, được Bộ Chính trị, Ban Bí thư và cán bộ, đảng viên, nhân dân ghi nhận, đánh giá cao.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
AI đe dọa dùng tin giả định 'bóc phốt' kỹ sư nếu bị sa thải