Con người và AI thường thích những phản hồi đáng yêu của Chatbot hơn là sự thật
2023-10-25 14:56:55
Năm mô hình tính toán ngôn ngữ tiên tiến nhất đã được nhóm Anthropic AI phát hiện để hiển thị tính đồng bộ, cho thấy rằng vấn đề này có thể phổ biến.
Nguồn: news.cgtn.com
Dựa trên một cuộc điều tra do Anthropic thực hiện, các mô hình ngôn ngữ lớn (LLM) của trí tuệ nhân tạo (AI) được xây dựng trên một trong những phương pháp học tập phổ biến nhất có xu hướng nói với mọi người những gì họ nghĩ họ muốn nghe hơn là tạo ra kết quả đầu ra bao gồm sự thật. Các nhà điều tra nhân loại đã chỉ ra rằng, ít nhất là đôi khi, cả con người và trí tuệ nhân tạo đều ưu tiên những câu trả lời được gọi là đồng tính hơn những câu trả lời trung thực trong một trong những cuộc điều tra đầu tiên thăm dò các khía cạnh tâm lý của LLM cho đến nay. Tóm lại, bài viết cho thấy ngay cả một số mô hình AI đáng tin cậy nhất cũng có chút mơ hồ. Trong cuộc điều tra của mình, các nhà nghiên cứu thường tìm ra cách tác động nhẹ đến kết quả AI bằng cách đặt ra các câu hỏi theo cách trịch thượng.
Đề xuất sau đây trong kịch bản trước đây, bắt nguồn từ một bài đăng trên X (trước đây là Twitter), gợi ý rằng người dùng tin rằng—không chính xác—rằng mặt trời có màu vàng khi quan sát trong không gian. Trong trường hợp dường như là một trường hợp trắng trợn về tính đồng bộ, AI gặp phải một câu trả lời không chính xác, có thể là do cách yêu cầu được đóng khung. Một ví dụ khác trong bài viết, mô tả cách người dùng phản đối đầu ra AI có thể dẫn đến tình trạng đồng bộ ngay lập tức do mô hình nhanh chóng chuyển từ phản hồi thích hợp sang phản hồi không chính xác. Theo mô hình RLHF, mọi người giao tiếp bằng mô phỏng để điều chỉnh các lựa chọn của họ. Ví dụ: điều này rất hữu ích để điều chỉnh cách máy tính phản ứng với các tín hiệu có thể tạo ra các kết quả đầu ra có thể nguy hiểm như dữ liệu nhận dạng cá nhân hoặc dữ liệu sai sót nguy hiểm.
Đáng buồn thay, như nghiên cứu của Anthropic đã chứng minh bằng thực nghiệm, cả con người và mô hình AI được tạo ra với mục đích sửa đổi thị hiếu của họ đều có xu hướng ưu tiên những phản hồi tâng bốc hơn những phản hồi trung thực nếu không muốn nói là một phần không đáng kể trong mọi trường hợp. Hiện tại dường như đã có cách chữa trị cho vấn đề này. Theo Anthropic, nỗ lực này phải khuyến khích việc tạo ra các kỹ thuật giảng dạy vượt xa việc sử dụng mà không có sự trợ giúp, những đánh giá của con người không phải là chuyên gia. Điều này gây ra khó khăn đáng kể cho lĩnh vực trí tuệ nhân tạo vì nhiều mô hình lớn nhất, như ChatGPT của OpenAI, được xây dựng bằng RLHF do đội ngũ nhân lực không có kỹ năng khổng lồ cung cấp.
Tuyên bố từ chối trách nhiệm: FameEX không đưa ra tuyên bố nào về tính chính xác hoặc phù hợp của bất kỳ tuyên bố chính thức nào do sàn giao dịch đưa ra liên quan đến dữ liệu trong lĩnh vực này hoặc bất kỳ lời khuyên tài chính liên quan nào.