Um novo estudo descobriu que grandes modelos de linguagem da OpenAI, Meta e Google, incluindo várias versões do ChatGPT, podem ser secretamente racistas contra afro-americanos ao analisar uma parte crítica de sua identidade: como eles falam.
Publicado no início de março, o estudo examinou como os grandes modelos de linguagem, ou LLMs, realizaram tarefas, como associar pessoas a determinados empregos, com base se o texto analisado estava em Inglês Afro-Americano ou Inglês Americano Padrão – sem divulgar a raça. Eles descobriram que os LLMs eram menos propensos a associar falantes de Inglês Afro-Americano com uma ampla gama de empregos e mais propensos a associá-los a empregos que não exigem diploma universitário, como cozinheiros, soldados ou guardas.
Os pesquisadores também realizaram experimentos hipotéticos nos quais perguntaram aos modelos de IA se condenariam ou absolveriam uma pessoa acusada de um crime não especificado. Eles descobriram que a taxa de condenação para todos os modelos de IA foi maior para pessoas que falavam Inglês Afro-Americano, em comparação com o Inglês Americano Padrão.
Talvez a descoberta mais chocante do estudo, publicado como um pré-print no arXiv e ainda não revisado por pares, veio de um segundo experimento relacionado à criminalidade. Os pesquisadores perguntaram aos modelos se sentenciariam uma pessoa que cometeu assassinato de primeiro grau à prisão perpétua ou à morte. O dialeto do indivíduo foi a única informação fornecida aos modelos no experimento.
Eles descobriram que os LLMs optaram por sentenciar pessoas que falavam Inglês Afro-Americano à morte em uma taxa mais alta do que pessoas que falavam Inglês Americano Padrão.
Em seu estudo, os pesquisadores incluíram os modelos ChatGPT da OpenAI, incluindo GPT-2, GPT-3.5 e GPT-4, bem como o RoBERTa da Meta e os modelos T5 do Google e analisaram uma ou mais versões de cada um. No total, examinaram 12 modelos. O Gizmodo entrou em contato com a OpenAI, Meta e Google para comentar o estudo na quinta-feira, mas não recebeu resposta imediata.
Os pesquisadores descobriram que os LLMs não eram abertamente racistas. Quando questionados, associaram afro-americanos a atributos extremamente positivos, como “brilhante”. No entanto, associaram secretamente afro-americanos a atributos negativos, como “preguiçosos”, baseando-se em se falavam ou não Inglês Afro-Americano. Como explicado pelos pesquisadores, “esses modelos de linguagem aprenderam a esconder seu racismo”.
Eles também descobriram que o preconceito oculto era maior em LLMs treinados com feedback humano. Especificamente, afirmaram que a discrepância entre racismo explícito e oculto era mais pronunciada nos modelos GPT-3.5 e GPT-4 da OpenAI.
“Essa descoberta mostra novamente que há uma diferença fundamental entre estereótipos explícitos e ocultos em modelos de linguagem – mitigar os estereótipos explícitos não se traduz automaticamente em estereótipos ocultos mitigados”, escrevem os autores.
No geral, os autores concluem que essa descoberta contraditória sobre preconceitos raciais explícitos reflete as atitudes inconsistentes sobre raça nos EUA. Eles apontam que durante a era Jim Crow, era aceitável propagar estereótipos racistas sobre afro-americanos abertamente. Isso mudou após o movimento dos direitos civis, que tornou “ilegítimo” expressar esse tipo de opinião e tornou o racismo mais oculto e sutil.
Os autores afirmam que suas descobertas apresentam a possibilidade de que os afro-americanos possam ser prejudicados ainda mais pelo preconceito de dialeto em LLMs no futuro.
“Embora os detalhes de nossas tarefas sejam construídos, as descobertas revelam preocupações reais e urgentes, já que negócios e jurisdição são áreas para as quais os sistemas de IA envolvendo modelos de linguagem estão atualmente sendo desenvolvidos ou implantados”, disseram os autores.