"Anthropic tung Fable cho an ninh mạng, nhưng guardrail nghiêm ngặt khiến nó không thể phân tích mã độc hay mô phỏng tấn công thực tế - các chuyên gia than trời."
Cứ tưởng có "siêu vũ khí" cho an ninh mạng, ai ngờ Fable lại bị nhà sản xuất Anthropic trói chặt tay chân đến mức vô dụng. Các nhà nghiên cứu bảo mật đang dậy sóng vì hàng rào an toàn (guardrails) quá khắt khe trên mô hình AI mới này.
An toàn thái quá hóa bất cập
Thay vì hỗ trợ phát hiện lỗ hổng, Fable từ chối phân tích *payload* mã độc hoặc cú pháp *SQL injection* vì sợ bị lạm dụng. Kết quả: *Công cụ chuyên dụng* biến thành "gã bảo vệ khó tính" không dám động vào bất cứ thứ gì có mùi "nguy hiểm".
Người dùng thử nghiệm chỉ ra Fable chặn cả những request vô hại như "mô phỏng tấn công DDoS trong môi trường lab". Nó lo sợ rằng chỉ cần gợi ý kỹ thuật tấn công là đã vi phạm chính sách.
Chuyên gia 'đau đầu' với lằn ranh mong manh
Để kiểm tra bảo mật thực thụ, hacker mũ trắng buộc phải tiếp cận tư duy của kẻ tấn công. Nhưng guardrail kiểu "cấm toàn bộ" vô hiệu hóa hoàn toàn khả năng này.
Anthropic đang đi trên dây: Một mặt muốn tránh vụ kiện kiểu *GitHub Copilot* gây tranh cãi, mặt khác không muốn Fable bị lợi dụng cho tội phạm mạng. Nhưng giới chuyên gia cho rằng giải pháp nằm ở quyền truy cập có kiểm soát, thay vì bóp nghẹt tính năng của toàn bộ mô hình.
[Kết luận]
Fable là minh họa rõ nét cho bài toán khó của AI bảo mật: An toàn đến mức nào là đủ? Nếu cứ "thà giết nhầm còn hơn bỏ sót", những công cụ tưởng chừng hữu ích này sẽ chỉ khiến chuyên gia an ninh mạng thêm... bất lực. Bạn nghĩ đâu là lằn ranh hợp lý giữa an toàn và hiệu quả cho AI bảo mật?
0 Nhận xét