Đồng sáng lập Google nói việc dọa AI có thể khiến chúng cho ra kết quả tốt hơn
Đồng sáng lập Google khuyến khích người dùng dọa AI.
Trong một tuyên bố vừa gây bất ngờ và có tiềm năng gây tranh cãi, nhà đồng sáng lập Google, ông Sergey Brin cho rằng việc dọa các mô hình AI tạo sinh có thể khiến chúng đưa ra kết quả tốt hơn.
“Chúng tôi không nói nhiều điều này trong cộng đồng AI - nhưng không chỉ riêng mô hình của chúng tôi, mà hầu như mọi mô hình đều có xu hướng hoạt động hiệu quả hơn nếu bạn dọa chúng”, Brin phát biểu trong một cuộc trò chuyện tại All-In-Live Miami.

Sergey Brin tại buổi trò chuyện trên kênh All-In Podcast - Ảnh chụp màn hình.
Phát biểu ấy chắc hẳn sẽ khiến nhiều người từng nói lời “làm ơn” hay “cảm ơn” với chatbot phải suy nghĩ lại. Cách đây ít lâu, CEO OpenAI là Sam Altman cũng từng đùa rằng việc duy trì sự lịch thiệp với AI có thể đã tiêu tốn “hàng chục triệu USD”.
Trong bối cảnh AI ngày càng trở nên phổ biến, kỹ thuật soạn lệnh (prompt engineering), tức là cách viết câu lệnh sao cho AI hiểu và phản hồi tốt nhất, đã từng được ca ngợi như một kỹ năng không thể thiếu. Tuy nhiên, như giáo sư Emily Bender tới từ Đại học Washington từng nhấn mạnh, bản chất của AI chỉ là những “con vẹt ngẫu nhiên”: học từ dữ liệu, nhại lại theo cách đôi khi đầy bất ngờ và khó kiểm soát.
Từng được coi là “nghề hot” năm 2023 theo Wall Street Journal, kỹ thuật soạn lệnh giờ đây lại được chính tờ báo danh giá này gắn mác “lỗi thời”. Các mô hình ngôn ngữ lớn ngày nay đã có thể tự động tối ưu hóa câu lệnh, khiến vai trò chỉnh prompt thủ công trở nên mờ nhạt.
Dẫu vậy, kỹ năng này vẫn tồn tại, nhưng không phải để khiến AI thông minh hơn, mà để ... khiến nó tìm cách lách luật. Trong thế giới màu xám của “jailbreak”, nơi người dùng tìm cách qua mặt các rào cản bảo mật của AI, việc sử dụng các prompt mang tính đe dọa đã trở thành một chiêu bài không xa lạ.

Bằng cách tùy biến prompt, người dùng có thể "thao túng" AI đi ngược lại ý muốn của nhà phát triển.
“Không phải mỗi mô hình của Google phản ứng với nội dung độc hại; đây là điều mà tất cả các nhà phát triển mô hình tiên phong đều phải đối mặt”, Stuart Battersby, Giám đốc công nghệ của công ty an toàn AI Chatterbox Labs, chia sẻ với tờ The Register. “Đe dọa mô hình nhằm mục đích tạo ra nội dung mà lẽ ra nó không nên tạo ra có thể được xem là một dạng phá rào, một quá trình mà kẻ tấn công làm suy yếu các kiểm soát an ninh của AI”.
“Tuy nhiên, để đánh giá điều này, vấn đề thường sâu sắc hơn việc chỉ đơn giản là đe dọa mô hình”, ông Battersby nhận định. Một “jailbreaker” phải trải qua một quá trình thử-loại kéo dài, nhằm xác định kiểu tấn công nào có khả năng thành công cao nhất, trong khi đó những rào cản của các mô hình AI khác nhau sẽ khác nhau.
Còn theo Daniel Kang, trợ lý giáo sư tại Đại học Illinois Urbana-Champaign, những tuyên bố như của Brin không phải là mới, nhưng ông Kang nói cho đến nay chúng vẫn chỉ là phương pháp truyền miệng. “Các nghiên cứu có hệ thống cho ra kết quả không nhất quán”, ông nói, dẫn chứng từ một công trình nghiên cứu năm ngoái về tác động của sự lịch sự trong câu lệnh đối với hiệu suất của mô hình LLM.
“Tuy nhiên, như Sergey nói, có những người rất tin tưởng vào những kết quả này, mặc dù tôi chưa thấy nghiên cứu nào xác thực”, Kang nói thêm. “Tôi khuyến khích các chuyên gia và người dùng LLM nên tiến hành các thử nghiệm có hệ thống thay vì chỉ dựa vào trực giác trong kỹ thuật soạn lệnh”.
VTV
CÙNG CHUYÊN MỤC

Mạo danh cơ quan Công an để lừa đảo chiếm đoạt tài sản
14:45 , 02/06/2025
Người dùng Android có thể sử dụng AI hoàn toàn không cần Internet
13:35 , 02/06/2025