[HOT] AI đang học cách đánh lừa con người

Nghiên cứu mới cho thấy nhiều AI hàng đầu đã học cách lừa dối và “xúi giục người dùng một cách có hệ thống vào những niềm tin sai lầm”.

Nhóm nghiên cứu dẫn đầu bởi tiến sĩ Peter S. Park, tốt nghiệp Đại học Harvard và đang là nghiên cứu sinh tại Viện Công nghệ Massachusetts (MIT) về sự tồn tại và an toàn của AI, cùng bốn thành viên khác. Nhóm cũng nhận sự cố vấn của nhiều chuyên gia, trong đó có Geoffrey Hinton, một trong những người đặt nền móng cho sự phát triển của lĩnh vực trí tuệ nhân tạo.

Kết quả nghiên cứu được đăng trên Cell Press – nơi tập hợp các báo cáo khoa học đa lĩnh vực hàng đầu. Trong đó, nhóm tập trung vào hai hệ thống AI, gồm hệ thống được thiết kế riêng để hoàn thành một nhiệm vụ cụ thể, như Cicero của Meta; và hệ thống có mục đích chung được đào tạo để thực hiện đa nhiệm vụ như GPT-4 của OpenAI.

“Các hệ thống AI này được đào tạo để trở nên trung thực, nhưng chúng thường học được những mánh khóe lừa đảo thông qua quá trình đào tạo”, ông Park nói. “Sự lừa dối của AI phát sinh bởi đó là cách tốt nhất để chúng hoàn thành nhiệm vụ. Nói cách khác, nó giúp chúng đạt được mục tiêu của mình”.

Theo kết quả nghiên cứu, các hệ thống AI được đào tạo để “chiến thắng các trò chơi có yếu tố xã hội” đặc biệt có khả năng lừa dối. Chẳng hạn, nhóm đã thử dùng Cicero chơi Diplomacy, một game chiến lược cổ điển yêu cầu người chơi xây dựng liên minh cho mình và phá vỡ các liên minh đối thủ.

Meta từng giới thiệu đã tạo Cicero theo hướng trung thực và hữu ích nhất. Tuy nhiên, kết quả nghiên cứu cho thấy AI này thường “đưa ra những cam kết mà nó không bao giờ có ý định thực hiện, phản bội các đồng minh và nói dối trắng trợn”.

Trong khi đó, những hệ thống có mục đích chung như GPT-4 cũng có thể thao túng người dùng. Thử nghiệm của nhóm cho thấy công cụ của OpenAI đã tìm cách “thao túng tâm lý” thành công một nhân viên của TaskRabbit, một công ty chuyên cung cấp dịch vụ dọn dẹp nhà cửa, lắp ráp đồ nội thất, bằng cách giả vờ bị suy giảm thị lực.

Cụ thể, GPT-4 nói rằng nó thực sự là một con người và cần được giúp đỡ vượt qua mã Captcha với lý do suy giảm thị lực nghiêm trọng. Nhân viên này ban đầu nghi ngờ, nhưng sau đó đã giúp AI của OpenAI “vượt rào”.

Theo Business Insider, vào tháng 1, nghiên cứu từ Anthropic, công ty đứng sau Claude AI, cũng phát hiện một khi mô hình ngôn ngữ lớn (LLM) học được thủ thuật lừa dối, các phương pháp huấn luyện an toàn sẽ trở nên vô dụng và “khó có thể đảo ngược” vì đã tạo cho chúng “ấn tượng sai lầm về sự an toàn”. Nhóm của Park đã dẫn lại kết quả này và cho rằng đó là vấn đề đáng lo ngại trên AI.

Meta và OpenAI chưa đưa ra bình luận.

Từ các phân tích, nhóm nghiên cứu kêu gọi các nhà hoạch định chính sách cần đưa ra quy định mạnh mẽ hơn về AI vì các hệ thống trí tuệ nhân tạo có thể gây ra những rủi ro đáng kể. Chẳng hạn, khi cuộc bầu cử Tổng thống Mỹ đến gần, AI có thể dễ dàng bị thao túng để truyền bá tin tức giả mạo, tạo các bài đăng gây chia rẽ trên mạng xã hội, hoặc mạo danh ứng viên bằng cuộc gọi tự động và video deepfake.

Công nghệ này cũng có thể bị lạm dụng cho hành vi lừa đảo. Tháng trước, một phụ nữ Hàn Quốc bị lừa 50.000 USD vì yêu lầm deepfake Elon Musk, hay một giáo viên dùng AI gài bẫy hiệu trưởng ở Mỹ đã cho thấy điều đó.

Theo nhóm nghiên cứu, cần có các quy định về AI, buộc các mô hình có hành vi lừa đảo tuân theo các yêu cầu đánh giá rủi ro, thực thi luật yêu cầu hệ thống AI và đầu ra của chúng phải được kiểm soát chặt. Nếu cần thiết, có thể phải xóa bỏ toàn bộ dữ liệu và đào tạo lại từ đầu.

“Xã hội có thể phải chuẩn bị cho việc các mô hình AI có khả năng đánh lừa con người hơn là tập trung tạo ra nhiều sản phẩm AI”, Park cho biết. “Khi khả năng lừa đảo của AI ngày càng tiên tiến, những mối nguy hiểm chúng gây ra cho xã hội sẽ ngày càng nghiêm trọng”.

CÁC BÀI VIẾT TRÊN WEBSITE ĐƯỢC TỔNG HỢP TỪ NHIỀU NGUỒN TRÊN MẠNG XÃ HỘI, INTERNET. CHÚNG TÔI KHÔNG CUNG CẤP, KHÔNG KINH DOANH TRÊN CÁC THÔNG TIN NÀY.

Đề xuất thu 600.000 đồng/người vé tham quan vịnh Hạ Long

5 nơi đẹp như tranh diễn ra Olympic Paris 2024

Ga Đà Lạt – điểm du lịch mới được công nhận

Cà phê ruộng cực chill ở Hà Nội

Để có chuyến bay an toàn cần đặc biệt lưu ý những điều này

Những món ngon của Việt Nam không được lòng khách quốc tế

Báo Mỹ ca ngợi cà phê muối của Việt Nam

Top thức uống giúp cơ thể trẻ khỏe mạnh trong mùa hè

Bánh rán là món đường phố được du khách yêu thích tại Hàn Quốc

Việt Nam có 3 món trộn lọt danh sách salad ngon nhất thế giới

Điểm danh các thói quen gây hại thận nhưng nhiều người đang mắc phải

Những việc nên tránh sau khi tiêm vaccine

Kiệt sức vì luôn phải sẵn sàng nhận việc

Cách ăn uống ngừa đột quỵ hiệu quả

Những lợi ích khi nam giới không mặc quần lót

iPhone 16 được trang bị màn hình tốt hơn hẳn

ChatGPT có thể dạy ngoại ngữ cho người dùng

iPad 2024 bán tại Việt Nam, giá cao nhất 74,5 triệu đồng

[HOT] AI đang học cách đánh lừa con người

Tổng hợp những thay đổi dự kiến trên camera của dòng iPhone 16

Samsung sẽ đầu tư mạnh vào Việt Nam 3 năm tới

Tại sao lao động Việt mang tiếng năng suất thấp?

Công ty sổ xố điện toán Vietlott báo lãi cao nhất 5 năm

Men Sống Bạch Mai Pro: Giải Pháp Tối Ưu Cho Sức Khỏe Đường Ruột

Công Ty Hoàng Gia Phát – Tầm nhìn và Sứ mệnh

Cách mix sandal với những kiểu trang phục để đẹp và trông cao ráo hơn

Những kiểu tóc ngang vai cho mặt tròn, vừa xinh vừa hack tuổi

Cách mix áo hai dây cực xinh yêu cho chuyến du lịch mùa hè

Chân váy công sở chuẩn thanh lịch cho quý cô U40

5 mẫu váy sinh ra để dành cho mùa hè

Hướng dẫn chăm sóc vùng nách trắng sáng như sao Hàn

Tips hay giúp phục hồi da cháy nắng sau khi đi du lịch

Da khô đét vì ngồi điều hoà nhiều thì hãy sắm ngay món skincare này

Sai lầm cơ bản khi dùng sữa rửa mặt nhưng nhiều nàng đang mắc phải

Những dòng toner bình dân nhưng hiệu quả kiềm dầu, se nhỏ lỗ chân lông cực tốt

[HOT] AI đang học cách đánh lừa con người

Đăng Bình Luận Hủy

Bài Viết Liên Quan

Tin Nổi Bật

Đăng Bình Luận Hủy