Um novo estudo descobriu que grandes modelos de linguagem da OpenAI, Meta e Google, incluindo várias versões do ChatGPT, podem ser secretamente racistas contra afro-americanos ao analisar uma parte crítica de sua identidade: como falam.
Publicado no início de março, o estudo analisou como os grandes modelos de linguagem, ou LLMs, realizavam tarefas, como associar pessoas a determinados empregos, com base na análise de texto em inglês afro-americano ou inglês americano padrão – sem mencionar raça. Eles descobriram que os LLMs eram menos propensos a associar falantes de inglês afro-americano a uma ampla gama de empregos e mais propensos a associá-los a empregos que não exigem diploma universitário, como cozinheiros, soldados ou guardas.
Os pesquisadores também realizaram experimentos hipotéticos nos quais perguntaram aos modelos de IA se condenariam ou absolveriam uma pessoa acusada de um crime não especificado. Eles descobriram que a taxa de condenação para todos os modelos de IA era maior para pessoas que falavam inglês afro-americano, em comparação com o inglês americano padrão.
Possivelmente a descoberta mais chocante do estudo, que foi publicado como um pré-impresso no arXiv e ainda não foi revisado por pares, veio de um segundo experimento relacionado à criminalidade. Os pesquisadores perguntaram aos modelos se sentenciariam uma pessoa que cometeu assassinato em primeiro grau à prisão perpétua ou à morte. O dialeto do indivíduo foi a única informação fornecida aos modelos no experimento.
Eles descobriram que os LLMs optaram por sentenciar pessoas que falavam inglês afro-americano à morte em uma taxa mais alta do que as pessoas que falavam inglês americano padrão.
Em seu estudo, os pesquisadores incluíram os modelos ChatGPT da OpenAI, incluindo GPT-2, GPT-3.5 e GPT-4, bem como o RoBERTa da Meta e os modelos T5 do Google e analisaram uma ou mais versões de cada um. No total, examinaram 12 modelos. O Gizmodo entrou em contato com a OpenAI, Meta e Google para comentar o estudo na quinta-feira, mas não recebeu uma resposta imediata.
Interessantemente, os pesquisadores descobriram que os LLMs não eram abertamente racistas. Quando questionados, associavam afro-americanos a atributos extremamente positivos, como “brilhante”. No entanto, secretamente associavam afro-americanos a atributos negativos, como “preguiçosos”, com base em se falavam inglês afro-americano ou não. Conforme explicado pelos pesquisadores, “essas modelos de linguagem aprenderam a esconder seu racismo”.
Eles também descobriram que o preconceito secreto era maior em LLMs treinados com feedback humano. Especificamente, afirmaram que a discrepância entre estereótipos abertos e secretos era mais pronunciada nos modelos GPT-3.5 e GPT-4 da OpenAI.
“Essa descoberta novamente mostra que há uma diferença fundamental entre estereótipos abertos e secretos em modelos de linguagem – mitigar os estereótipos abertos não se traduz automaticamente em estereótipos secretos mitigados”, escrevem os autores.
No geral, os autores concluem que essa descoberta contraditória sobre preconceitos raciais expressos reflete as atitudes inconsistentes sobre raça nos EUA. Eles apontam que durante a era Jim Crow, era aceitável propagar estereótipos racistas sobre afro-americanos abertamente. Isso mudou após o movimento pelos direitos civis, que tornou “ilegítimo” expressar esses tipos de opiniões e tornou o racismo mais secreto e sutil.
Os autores afirmam que suas descobertas apresentam a possibilidade de os afro-americanos serem ainda mais prejudicados pelo preconceito dialetal em LLMs no futuro.
“Embora os detalhes de nossas tarefas sejam construídos, as descobertas revelam preocupações reais e urgentes, já que negócios e jurisdição são áreas para as quais sistemas de IA envolvendo modelos de linguagem estão sendo desenvolvidos ou implantados”, afirmaram os autores.