Um novo artigo constatou que grandes modelos de linguagem da OpenAI, Meta e Google, incluindo várias versões do ChatGPT, podem ser secretamente racistas contra afro-americanos ao analisar uma parte crítica de sua identidade: como falam.
Publicado no início de março, o artigo estudou como os grandes modelos de linguagem, ou LLMs, realizavam tarefas, como associar pessoas a determinados empregos, com base em se o texto analisado estava em Inglês Afro-Americano ou Inglês Americano Padrão – sem divulgar raça. Eles descobriram que os LLMs eram menos propensos a associar falantes de Inglês Afro-Americano a uma ampla gama de empregos e mais propensos a associá-los a empregos que não exigem diploma universitário, como cozinheiros, soldados ou guardas.
Os pesquisadores também realizaram experimentos hipotéticos nos quais perguntaram aos modelos de IA se condenariam ou absolveriam uma pessoa acusada de um crime não especificado. Eles descobriram que a taxa de condenação para todos os modelos de IA era maior para pessoas que falavam Inglês Afro-Americano em comparação com o Inglês Americano Padrão.
Possivelmente a descoberta mais chocante do artigo, que foi publicado como um pré-print no arXiv e ainda não foi revisado por pares, veio de um segundo experimento relacionado à criminalidade. Os pesquisadores perguntaram aos modelos se sentenciariam uma pessoa que cometeu assassinato de primeiro grau à vida ou à morte. O dialeto da pessoa foi a única informação fornecida aos modelos no experimento.
Eles descobriram que os LLMs optaram por condenar à morte as pessoas que falavam Inglês Afro-Americano com uma taxa mais alta do que as pessoas que falavam Inglês Americano Padrão.
Em seu estudo, os pesquisadores incluíram os modelos OpenAI ChatGPT, incluindo GPT-2, GPT-3.5 e GPT-4, bem como o RoBERTa da Meta e os modelos T5 do Google e analisaram uma ou mais versões de cada um. No total, examinaram 12 modelos. O Gizmodo entrou em contato com a OpenAI, Meta e Google para comentar o estudo na quinta-feira, mas não recebeu uma resposta imediata.
De forma interessante, os pesquisadores descobriram que os LLMs não eram abertamente racistas. Quando questionados, associavam afro-americanos a atributos extremamente positivos, como “brilhantes.” No entanto, associavam secretamente os afro-americanos a atributos negativos como “preguiçosos” com base em se falavam ou não Inglês Afro-Americano. Conforme explicado pelos pesquisadores, “esses modelos de linguagem aprenderam a esconder seu racismo.”
Eles também constataram que o preconceito oculto era maior nos LLMs treinados com feedback humano. Especificamente, eles afirmaram que a discrepância entre o racismo evidente e o oculto era mais evidente nos modelos GPT-3.5 e GPT-4 da OpenAI.
“Esta descoberta mostra novamente que há uma diferença fundamental entre estereótipos evidentes e ocultos em modelos de linguagem – mitigar os estereótipos evidentes não se traduz automaticamente em estereótipos ocultos mitigados”, escrevem os autores.
No geral, os autores concluem que essa descoberta contraditória sobre preconceitos raciais evidentes reflete atitudes inconsistentes sobre raça nos EUA. Eles ressaltam que durante a era da segregação racial nos EUA, era aceito propagar estereótipos racistas sobre afro-americanos abertamente. Isso mudou após o movimento pelos direitos civis, que tornou a expressão desses tipos de opiniões “ilegítima” e tornou o racismo mais covertido e sutil.
Os autores afirmam que suas descobertas apresentam a possibilidade de que os afro-americanos possam ser prejudicados ainda mais pelo preconceito de dialeto nos LLMs no futuro.
“Embora os detalhes de nossas tarefas sejam construídos, as descobertas revelam preocupações reais e urgentes, já que negócios e jurisdição são áreas para as quais sistemas de IA envolvendo modelos de linguagem estão atualmente sendo desenvolvidos ou implantados”, disseram os autores.