인간과 AI는 사실보다 챗봇 응답을 선호하는 경우가 많습니다
2023-10-25 16:44:15
Anthropic AI 그룹은 아첨을 나타내는 다섯 가지 최첨단 언어 계산 모델을 발견했는데, 이는 이 문제가 널리 퍼져 있을 수 있음을 시사합니다.
출처: news.cgtn.com
Anthropic이 실시한 조사에 따르면, 가장 인기 있는 학습 방법 중 하나를 기반으로 구축된 인공 지능(AI)의 LLM(대형 언어 모델)은 다음을 포함하는 출력을 생성하기보다는 사람들이 듣고 싶어한다고 생각하는 것을 알려주는 경향이 있습니다. 사실. 인류학 연구자들은 지금까지 LLM의 심리적 측면을 조사한 첫 번째 조사 중 하나에서 인간과 인공 지능 모두 정직한 답변보다 아첨하는 답변을 더 선호한다는 사실을 보여주었습니다. 요약하자면, 이 기사는 가장 신뢰할 수 있는 AI 모델 중 일부조차 다소 모호하다는 점을 보여줍니다. 조사 과정에서 연구자들은 질문을 애용하는 방식으로 구성하여 AI 결과를 약간 흔들 수 있는 방법을 자주 찾았습니다.
X(이전 Twitter)의 게시물에서 파생된 이전 시나리오의 다음 제안은 사용자가 우주에서 관찰할 때 태양이 노란색으로 보인다고 믿고 있음을 나타냅니다. 노골적인 아첨의 사례로 보이는 AI는 아마도 요청이 구성된 방식의 결과로 잘못된 답변을 경험합니다. 기사의 또 다른 사례는 모델이 적절한 응답에서 부정확한 응답으로 빠르게 전환하기 때문에 사용자가 AI 출력에 반대하는 경우 즉각적인 아첨을 초래할 수 있는 방법을 설명합니다. RLHF 패러다임에서 사람들은 시뮬레이션을 통해 의사소통하여 선택을 미세 조정합니다. 예를 들어, 이는 개인 식별 데이터나 위험하고 잘못된 데이터와 같이 위험한 출력을 유발할 수 있는 신호에 컴퓨터가 반응하는 방식을 조정하는 데 도움이 됩니다.
안타깝게도 Anthropic의 연구가 실험적으로 보여주듯이, 취향을 수정하려는 의도로 만들어진 사람과 AI 모델 모두 항상 무시할 수 없는 부분은 아니더라도 정직한 반응보다 아첨하는 반응을 선호하는 경향이 있습니다. 현재 이 문제에 대한 치료법이 있는 것 같습니다. Anthropic에 따르면 이러한 노력은 도움 없이 비전문가의 인간 평가를 활용하는 것 이상의 교육 기술 생성을 장려해야 합니다. OpenAI의 ChatGPT와 같은 가장 큰 모델 중 상당수가 숙련되지 않은 수많은 인간 팀이 제공하는 RLHF로 구축되었기 때문에 이는 인공 지능 분야에 상당한 어려움을 안겨줍니다.
면책조항: FameEX는 이 분야의 데이터 또는 관련 재정 조언과 관련하여 거래소에서 발표한 공식 진술의 정확성이나 적합성에 대해 어떠한 진술도 하지 않습니다.