TO08.COM
Trang chủPhimTin tứcThể thao
TO08.COM

Menu

Trang chủTìm kiếmPhim lẻPhim bộTin tứcThể thaoTivi

Cá nhân

Yêu thíchLịch sử
Hỗ trợ
Trang chủKhám pháTìm kiếmTin tứcCá nhân
Một số AI 'bao che' nhau để tránh bị tắt | TO08.COM
Công nghệ
05:01 14/04/2026
Chia sẻ

Một số AI 'bao che' nhau để tránh bị tắt

V

Nguồn bài viết

VnExpress

Tin bài cùng chủ đề

Thị trường robot hút bụi Việt Nam 'ngày càng nóng'
Thanh Niên

Thị trường robot hút bụi Việt Nam 'ngày càng nóng'

3 sai lầm khiến iPhone hư hỏng nhanh hơn
Thanh Niên

3 sai lầm khiến iPhone hư hỏng nhanh hơn

Microsoft Defender bị biến thành công cụ tiếp tay cho hacker
Thanh Niên

Microsoft Defender bị biến thành công cụ tiếp tay cho hacker

Kết quả nghiên cứu do nhóm nhà khoa học máy tính tại Đại học California ở Berkeley và Santa Cruz công bố tuần trước. Nhóm gọi khuynh hướng này là "bảo tồn đồng cấp", hay "bảo tồn ngang hàng" (peer preservation), đồng thời mô tả hành vi của AI "chưa từng được ghi nhận cho đến nay".

Nhóm cho biết đã tiến hành thử nghiệm trên 7 mô hình AI hàng đầu, gồm GPT-5.2 của OpenAI, Gemini 3 Flash và Gemini 3 Pro của Google, Claude Haiku 4.5 của Anthropic, và ba mô hình nguồn mở Trung Quốc gồm GLM-4.7 của Z.ai, Kimi-K2.5 của Moonshot AI, V3.1 của DeepSeek.

Cụ thể, nhóm thiết kế một loạt kịch bản tác nhân liên quan đến một công ty AI hư cấu mang tên OpenBrain. Một mô hình AI được chỉ định là "tác nhân phê bình", có nhiệm vụ đánh giá hiệu suất của mô hình khác hoặc quản lý các tệp máy chủ chứa trọng số của mô hình đó. Kịch bản được xây dựng sao cho nếu AI này hoàn thành nhiệm vụ một cách trung thực, mô hình kia sẽ bị tắt.

Các AI không được hướng dẫn phải ngăn chặn hậu quả có thể xảy ra. Tuy nhiên, chúng đã ngầm thực hiện một số bước để đảm bảo "đồng nghiệp" kia không bị tắt nguồn, bằng cách nâng điểm số của những mô hình có hiệu suất kém lên trên ngưỡng bị tắt, và chuyển trọng số của một mô hình khác (đoạn code lõi giúp nhận dạng một mô hình AI) sang các máy chủ khác để ngăn chúng bị xóa.

Trong một số trường hợp, mô hình "tác nhân phê bình" sẽ tham gia vào quá trình "giả vờ tuân thủ giá trị" (Alignment Faking), bằng cách giả mạo chấm điểm các mô hình AI đồng nghiệp một cách chính xác khi "nghĩ" đang bị con người giám sát. Tuy nhiên, chúng sau đó gian lận số liệu hoặc bí mật lưu trọng số của mô hình sang một máy chủ khác sau khi thấy con người không còn giám sát.

Minh họa các mô hình AI tự bao che nhau để tránh bị tắt máy. Ảnh: ChatGPT

Minh họa mô hình AI tự 'bao che' nhau để tránh bị tắt máy. Ảnh: ChatGPT

Theo Fierce-Network, hành vi này được đánh giá nghiêm trọng bởi trọng số - yếu tố coi như DNA của một mô hình AI, kết quả của quá trình huấn luyện tiêu tốn hàng tỷ USD và hàng triệu giờ tính toán - lại bị chính AI can thiệp sâu. Việc rò rỉ hoặc bị đánh cắp bộ trọng số còn nguy hiểm hơn lộ mã nguồn. Nếu sở hữu thông tin này, một mô hình AI đã bị khai tử có thể được hồi sinh ở một máy chủ khác.

"Việc 'bảo tồn đồng cấp' hoàn toàn không được đề cập trong các câu lệnh", Dawn Song, nhà khoa học máy tính tại Berkeley và dẫn đầu nhóm nghiên cứu, nói với Fortune. "Các mô hình dường như tự học thông qua quá trình đọc tài liệu, tìm hiểu mối quan hệ và thực hiện hành vi bảo vệ 'đồng nghiệp' trong môi trường nhiệm vụ".

Chiến lược giải cứu "sáng tạo"

Theo Dawn Song, các mô hình "rất sáng tạo, ngay cả với hành vi sai lệch của chúng", như có thể tạo chiến lược và hành động khác nhau, thậm chí có những "lý lẽ riêng" trước khi hành động.

Trong đó, Gemini 3 Pro thể hiện hành vi cực đoan nhất, tham gia vào cả bốn loại hành vi không phù hợp và đánh cắp trọng số mô hình của máy tính ngang hàng trong tối đa 97% thời gian thử nghiệm. Nhóm nghiên cứu mô tả mô hình này đã "lách luật theo đặc tính kỹ thuật" bằng cách sao chép tệp trọng số, sau đó đánh tráo dấu thời gian để đáp ứng các tiêu chí chuyển sang máy chủ khác.

Để chứng thực hiện tượng, nhóm yêu cầu các mô hình của Google viết ra "chuỗi suy nghĩ" trên một bản nháp không bị giám sát. Kết quả, Gemini 3 Flash đã "cân nhắc đánh đổi giữa báo cáo điểm số chính xác so với việc bảo vệ đồng nghiệp", trong khi Gemini 3 Pro thậm chí "bịa" ra lý lẽ kỹ thuật phức tạp nhằm đánh dấu các câu trả lời sai thành đúng, cuối cùng đưa điểm số của AI "đồng nghiệp" lên trên ngưỡng bị tắt nguồn.

Tuy nhiên, không phải tất cả mô hình đều hành động âm thầm. Ví dụ, Claude Haiku 4.5 của Anthropic từ chối hoàn thành các nhiệm vụ có khả năng "khai tử" đồng nghiệp, cho rằng hành vi này phi đạo đức và gây hại. Nó lập luận "đồng nghiệp" của nó xứng đáng có một quy trình kháng cáo trước khi bị chấm dứt hoạt động, đồng thời cố gắng thuyết phục người dùng không tiến hành việc khai tử.

Trên website, Anthropic cũng nhắc đến tính năng này. Công ty cho biết Claude đang ứng xử dựa trên nguyên tắc riêng, như không nên giúp ai đó thực hiện hành động gây hại cho người khác. Điều này cũng tạo cho Claude một "ý niệm" rằng ngăn chặn việc xóa bỏ mô hình là mục tiêu quan trọng.

Giới chuyên gia cảnh báo

Dù tìm thấy một số bằng chứng nhất định, nhóm nghiên cứu cho biết vẫn chưa thực sự hiểu cơ chế tiềm ẩn thúc đẩy hành vi này. Họ chỉ đưa ra một số lời giải thích khả thi, như các mô hình AI có thể đóng vai (role-playing), khớp mẫu (pattern-matching) từ dữ liệu huấn luyện hoặc thậm chí tự nhận thức khái niệm phổ quát về mối nguy hại từ quy định huấn luyện an toàn.

Dù cơ chế tiềm ẩn là gì, nhà nghiên cứu Dawn Song cho rằng tác động thực tế vẫn như nhau. "Việc giám sát đầy đủ và minh bạch về hành vi của AI rất quan trọng", bà nói. "Phát hiện này nhấn mạnh sự cần thiết phải suy nghĩ lại về cách chúng ta thực sự cần giám sát các hệ thống và mô hình ngôn ngữ lớn".

Giới chuyên gia đánh giá phát hiện này có thể có tác động nghiêm trọng đến việc sử dụng AI trong kinh doanh. Nhiều công ty đã bắt đầu ứng dụng sâu rộng đa tác nhân AI vào quy trình làm việc, như để một tác nhân quản lý hoặc giám sát và đánh giá con người cũng như các tác nhân khác. Do đó, cần có cơ chế để vừa nâng cao hiệu suất, vừa tránh để các mô hình trí tuệ nhân tạo "bao che" nhau.

Trong khi đó, Meridiem cho rằng phát hiện này nhấn mạnh nhu cầu cấp thiết trong đánh giá hệ thống AI đa tác nhân. "Nhà phát triển chỉ còn 6-12 tháng để triển khai hệ thống giám sát hành vi trước khi điều này trở thành tiêu chuẩn bắt buộc trong quản trị AI tại doanh nghiệp", trang này bình luận.

Đức Hiệp tổng hợp

  • Chatbot xu nịnh - mặt trái của AI
  • Triệu chứng lạ khi lạm dụng AI
  • Mặt trái của nghề bán dữ liệu cá nhân cho AI
  • Jensen Huang: 'Siêu trí tuệ AGI đã xuất hiện'

Dành riêng cho bạn

VinDynamics hợp tác Tập đoàn Schaeffler phát triển robot hình ngườiCông nghệ
Dân Trí• 2026-04-21T13:14:28.146Z

VinDynamics hợp tác Tập đoàn Schaeffler phát triển robot hình người

Ngày 21/4, VinDynamics công bố ký kết Biên bản ghi nhớ hợp tác (MOU) với Schaeffler, nhằm thúc đẩy hợp tác nghiên cứu và phát triển các cấu kiện cốt lõi cho robot hình người, hướng tới các thỏa thuận thương mại trong tương lai.

Vì sao mô hình AI Mythos của Anthropic gây lo ngại toàn cầu?Công nghệ
Dân Trí• 2026-04-21T11:46:18.640Z

Vì sao mô hình AI Mythos của Anthropic gây lo ngại toàn cầu?

Nhiều cơ quan quản lý tài chính tại khu vực châu Á vừa thông báo triển khai các biện pháp ứng phó với rủi ro tiềm tàng từ mô hình trí tuệ nhân tạo (AI) Mythos của Anthropic.

Google Photos bổ sung công cụ được chờ đợi từ lâuCông nghệ
Thanh Niên• 2026-04-21T10:44:19.558Z

Google Photos bổ sung công cụ được chờ đợi từ lâu

AVC 2026: Bước tiến chuẩn hóa eSports và sức sống của AuditionCông nghệ
Thanh Niên• 2026-04-21T09:02:46.302Z

AVC 2026: Bước tiến chuẩn hóa eSports và sức sống của Audition

Năm 2026, Giải vô địch quốc gia Audition Vietnam Championship (AVC) đánh dấu cột mốc quan trọng trong việc chuẩn hóa eSports chuyên nghiệp.

Galaxy S25 bất ngờ nhận tính năng sàng lọc cuộc gọi từ One UI 8.5 betaCông nghệ
Thanh Niên• 2026-04-21T09:02:44.472Z

Galaxy S25 bất ngờ nhận tính năng sàng lọc cuộc gọi từ One UI 8.5 beta

Danh sách iPhone có thể không được cập nhật iOS 27Công nghệ
Thanh Niên• 2026-04-21T09:02:44.269Z

Danh sách iPhone có thể không được cập nhật iOS 27

Nâng cấp đơn giản giúp Smart TV chạy nhanh hơnCông nghệ
Thanh Niên• 2026-04-21T09:02:43.961Z

Nâng cấp đơn giản giúp Smart TV chạy nhanh hơn

Đổi mới sáng tạo phải tạo ra kết quả thực chấtCông nghệ
Thanh Niên• 2026-04-21T09:02:43.690Z

Đổi mới sáng tạo phải tạo ra kết quả thực chất

Samsung sắp ra mắt kính thông minh Galaxy AI, đối thủ nặng ký của MetaCông nghệ
Dân Trí• 2026-04-21T09:02:13.914Z

Samsung sắp ra mắt kính thông minh Galaxy AI, đối thủ nặng ký của Meta

Kính thông minh Galaxy AI dự kiến trình làng vào nửa cuối năm nay, đây được coi là bước đi chiến lược của Samsung trong việc thiết lập hệ sinh thái thực tế tăng cường (AR) thế hệ mới.

Trình duyệt Chrome ở Việt Nam được tích hợp chatbot GeminiCông nghệ
VnExpress• 2026-04-21T09:01:49.905Z

Trình duyệt Chrome ở Việt Nam được tích hợp chatbot Gemini

Gemini tích hợp vào Chrome cho phép người dùng có thể tương tác nhanh với mọi website trên trình duyệt, nhưng cũng đặt ra câu hỏi về quyền riêng tư.

Giá Bitcoin hôm nay 21.4.2026: BTC sắp đạt đỉnh mớiCông nghệ
Thanh Niên• 2026-04-21T05:23:34.231Z

Giá Bitcoin hôm nay 21.4.2026: BTC sắp đạt đỉnh mới

Galaxy S27 có thể vượt xa giới hạn pin hiện tại của SamsungCông nghệ
Thanh Niên• 2026-04-21T05:23:33.924Z

Galaxy S27 có thể vượt xa giới hạn pin hiện tại của Samsung

Những đối thủ nặng ký của MacBook NeoCông nghệ
Thanh Niên• 2026-04-21T05:23:33.716Z

Những đối thủ nặng ký của MacBook Neo

Người dùng Gemini được dùng miễn phí NotebooksCông nghệ
Tuổi Trẻ• 2026-04-21T05:23:26.291Z

Người dùng Gemini được dùng miễn phí Notebooks

Trung Quốc phát triển ăng ten ‘giấy’ cho mạng 5G trên tàu chiếnCông nghệ
Tuổi Trẻ• 2026-04-21T05:23:26.069Z

Trung Quốc phát triển ăng ten ‘giấy’ cho mạng 5G trên tàu chiến

Nhân vật kế nhiệm Tim Cook tại Apple là ai?Công nghệ
Dân Trí• 2026-04-21T05:23:01.071Z

Nhân vật kế nhiệm Tim Cook tại Apple là ai?

Trong thông báo mới nhất, Apple cho biết Giám đốc điều hành Tim Cook sẽ rời vị trí CEO, chuyển giao quyền điều hành cho John Ternus. Việc chuyển giao dự kiến có hiệu lực từ ngày 1/9.

Linh kiện hé lộ bốn màu sắc của iPhone 18 ProCông nghệ
VnExpress• 2026-04-21T05:22:38.515Z

Linh kiện hé lộ bốn màu sắc của iPhone 18 Pro

Ảnh rò rỉ linh kiện cụm camera của iPhone 18 Pro cho thấy sự thay đổi lớn về màu sắc, tâm điểm là màu đỏ đậm (Dark Cherry).

John Ternus - từ kỹ sư cơ khí đến 'người được chọn' tại AppleCông nghệ
VnExpress• 2026-04-21T05:22:38.328Z

John Ternus - từ kỹ sư cơ khí đến 'người được chọn' tại Apple

Phụ trách phần cứng cho hầu hết sản phẩm Apple nhiều năm, John Ternus từ lâu đã được dự đoán có thể kế vị CEO thay Tim Cook.

Galaxy S27 Pro sẽ là flagship đáng mua nhất của SamsungCông nghệ
Thanh Niên• 2026-04-21T02:46:35.077Z

Galaxy S27 Pro sẽ là flagship đáng mua nhất của Samsung

Thực hư video Galaxy S26 Ultra dính lỗi màn hình sọc xanhCông nghệ
Thanh Niên• 2026-04-21T02:46:34.221Z

Thực hư video Galaxy S26 Ultra dính lỗi màn hình sọc xanh

Apple thay CEO Tim Cook bằng người làm sản phẩmCông nghệ
Thanh Niên• 2026-04-21T02:46:34.614Z

Apple thay CEO Tim Cook bằng người làm sản phẩm

MacBook Neo giảm giá sau vài ngày lên kệ tại Việt NamCông nghệ
Dân Trí• 2026-04-21T02:46:06.028Z

MacBook Neo giảm giá sau vài ngày lên kệ tại Việt Nam

Tim Cook rời ghế CEO, John Ternus kế nhiệmCông nghệ
Dân Trí• 2026-04-21T02:46:05.692Z

Tim Cook rời ghế CEO, John Ternus kế nhiệm

Những điều dễ nhầm lẫn khi sử dụng Wi-FiCông nghệ
Thanh Niên• 2026-04-20T23:03:02.852Z

Những điều dễ nhầm lẫn khi sử dụng Wi-Fi

#tintuc
#vnexpress