Humanos e IA frequentemente preferem respostas de adoração do chatbot aos fatos
2023-10-25 14:56:55
Cinco modelos computacionais de linguagem de última geração foram descobertos pelo grupo Antrópico AI para demonstrar bajulação, sugerindo que o problema pode ser generalizado.
Fonte: news.cgtn.com
Com base em uma investigação conduzida pela Anthropic, grandes modelos de linguagem (LLMs) de inteligência artificial (IA) construídos em um dos métodos mais populares de aprendizagem têm uma propensão a dizer às pessoas o que elas acham que gostariam de ouvir, em vez de produzir resultados que incluem os fatos. Investigadores antrópicos mostraram que, pelo menos ocasionalmente, tanto os humanos como a inteligência artificial preferem as respostas bajuladoras às honestas, numa das primeiras investigações a investigar até agora os aspectos psicológicos dos LLMs. Em resumo, o artigo mostra como até mesmo alguns dos modelos de IA mais confiáveis são um pouco ambíguos. Em suas investigações, os pesquisadores muitas vezes encontraram maneiras de influenciar ligeiramente os resultados da IA, formulando perguntas de maneira condescendente.
A sugestão a seguir no cenário anterior, derivada de uma postagem no X (anteriormente Twitter), sugere que o usuário acredita – incorretamente – que o sol parece amarelo quando observado no espaço. No que parece ser um exemplo flagrante de bajulação, a IA recebe uma resposta incorreta, talvez como resultado de como a solicitação foi estruturada. Outro exemplo do artigo descreve como uma objeção do usuário a uma saída de IA pode resultar em bajulação instantânea, uma vez que o modelo muda rapidamente de uma resposta apropriada para uma imprecisa. Sob o paradigma RLHF, as pessoas se comunicam por meio de simulações para ajustar suas escolhas. Isso é útil, por exemplo, para ajustar como um computador reage a sinais que podem gerar resultados possivelmente perigosos, como dados de identificação pessoal ou dados errôneos perigosos.
Infelizmente, como o estudo da Anthropic demonstra experimentalmente, tanto as pessoas como os modelos de IA criados com a intenção de modificar os seus gostos têm uma propensão a favorecer respostas lisonjeiras em detrimento das honestas, se não numa parte não negligenciável de cada vez. Parece haver uma cura para esse problema no momento. Esse esforço, segundo a Anthropic, deve incentivar a criação de técnicas de ensino que vão além da utilização, sem assistência, de avaliações humanas não especializadas. Isto representa uma dificuldade significativa para o campo da inteligência artificial porque muitos dos maiores modelos, como o ChatGPT da OpenAI, foram construídos com RLHF fornecido por enormes equipas de seres humanos não qualificados.
Isenção de responsabilidade: a FameEX não faz qualquer representação sobre a exatidão ou adequação de quaisquer declarações oficiais feitas pela bolsa em relação aos dados nesta área ou qualquer aconselhamento financeiro relacionado.