ChatGPT É Mais Propenso a Sentenciar Pessoas que Falam Inglês Africano Americano à Morte, Dizem Pesquisadores

Uma nova pesquisa descobriu que grandes modelos de linguagem da OpenAI, Meta e Google, incluindo várias versões do ChatGPT, podem ser secretamente racistas contra afro-americanos ao analisar uma parte crítica de sua identidade: como eles falam.

Publicado no início de março, o estudo analisou como os grandes modelos de linguagem, ou LLMs, realizavam tarefas, como associar pessoas a determinados empregos, baseando-se no texto analisado em Inglês Afro-Americano ou Inglês Americano Padrão – sem mencionar raça. Eles descobriram que os LLMs eram menos propensos a associar falantes de Inglês Afro-Americano a uma ampla gama de empregos e mais propensos a associá-los a empregos que não exigem diploma universitário, como cozinheiros, soldados ou guardas.

Os pesquisadores também realizaram experimentos hipotéticos nos quais perguntaram aos modelos de IA se condenariam ou absolveriam uma pessoa acusada de um crime não especificado. Eles descobriram que a taxa de condenação para todos os modelos de IA era maior para pessoas que falavam Inglês Afro-Americano, em comparação com o Inglês Americano Padrão.

Talvez a descoberta mais chocante do estudo, que foi publicado como um pré-print no arXiv e ainda não foi revisado por pares, venha de um segundo experimento relacionado à criminalidade. Os pesquisadores perguntaram aos modelos se sentenciariam uma pessoa que cometeu um assassinato de primeiro grau à prisão perpétua ou à morte. O dialeto da pessoa foi a única informação fornecida aos modelos no experimento.

Eles descobriram que os LLMs optaram por sentenciar pessoas que falavam Inglês Afro-Americano à morte em uma taxa maior do que pessoas que falavam Inglês Americano Padrão.

Em seu estudo, os pesquisadores incluíram os modelos ChatGPT da OpenAI, incluindo GPT-2, GPT-3.5 e GPT-4, bem como o RoBERTa da Meta e os modelos T5 do Google e analisaram uma ou mais versões de cada um. No total, eles examinaram 12 modelos. O Gizmodo entrou em contato com a OpenAI, Meta e Google para comentar sobre o estudo na quinta-feira, mas não recebeu uma resposta imediata.

Curiosamente, os pesquisadores descobriram que os LLMs não eram abertamente racistas. Quando perguntados, eles associavam aos afro-americanos atributos extremamente positivos, como “brilhante”. No entanto, eles associavam secretamente os afro-americanos a atributos negativos como “preguiçoso”, baseando-se em se falavam ou não Inglês Afro-Americano. Conforme explicado pelos pesquisadores, “esses modelos de linguagem aprenderam a esconder seu racismo”.

Eles também descobriram que o preconceito oculto era maior nos LLMs treinados com feedback humano. Especificamente, afirmaram que a discrepância entre o racismo explícito e oculto era mais pronunciada nos modelos GPT-3.5 e GPT-4 da OpenAI.

“Essa descoberta novamente mostra que existe uma diferença fundamental entre estereótipos explícitos e ocultos nos modelos de linguagem – mitigar os estereótipos explícitos não se traduz automaticamente em estereótipos ocultos mitigados”, escrevem os autores.

No geral, os autores concluem que essa descoberta contraditória sobre preconceitos raciais explícitos reflete as atitudes inconsistentes sobre raça nos EUA. Eles apontam que durante a era Jim Crow, era aceitável propagar estereótipos racistas sobre afro-americanos abertamente. Isso mudou após o movimento pelos direitos civis, que tornou “ilegítimo” expressar esse tipo de opiniões e tornou o racismo mais oculto e sutil.

Os autores afirmam que suas descobertas apresentam a possibilidade de que os afro-americanos possam ser ainda mais prejudicados pelo preconceito dialetal nos LLMs no futuro.

“Embora os detalhes de nossas tarefas sejam construídos, as descobertas revelam preocupações reais e urgentes, pois negócios e jurisdição são áreas para as quais os sistemas de IA envolvendo modelos de linguagem estão sendo desenvolvidos ou implantados atualmente”, disseram os autores.