Apesar de serem criados por humanos, os grandes modelos de linguagem ainda são bastante misteriosos. Os algoritmos de alto desempenho que impulsionam nosso atual boom de inteligência artificial têm uma maneira de fazer coisas que não são facilmente explicáveis para as pessoas que os observam. É por isso que a IA tem sido amplamente rotulada de “caixa preta”, um fenômeno que não é facilmente compreendido por quem está de fora.
Uma nova pesquisa publicada pela Anthropic, uma das principais empresas do setor de IA, tenta lançar alguma luz sobre os aspectos mais desconcertantes do comportamento algorítmico da IA. Na terça-feira, a Anthropic publicou um artigo científico projetado para explicar por que seu chatbot de IA, Claude, escolhe gerar conteúdo sobre determinados assuntos em detrimento de outros.
Sistemas de IA são configurados de forma aproximada ao cérebro humano – redes neurais em camadas que recebem e processam informações e depois tomam “decisões” ou previsões com base nessas informações. Esses sistemas são “treinados” em grandes conjuntos de dados, o que lhes permite fazer conexões algorítmicas. No entanto, quando os sistemas de IA produzem dados com base em seu treinamento, os observadores humanos nem sempre sabem como o algoritmo chegou a esse resultado.
Esse mistério deu origem ao campo da “interpretação da IA”, onde os pesquisadores tentam rastrear o caminho da tomada de decisões da máquina para poder entender sua saída. No campo da interpretação da IA, um “recurso” se refere a um padrão de “neurônios” ativados dentro de uma rede neural – efetivamente um conceito ao qual o algoritmo pode se referir. Quanto mais “recursos” dentro de uma rede neural os pesquisadores conseguem entender, mais conseguem compreender como determinadas entradas desencadeiam a rede a produzir determinadas saídas.
Em um memorando sobre suas descobertas, os pesquisadores da Anthropic explicam como utilizaram um processo conhecido como “aprendizado de dicionários” para decifrar quais partes da rede neural de Claude são mapeadas para conceitos específicos. Usando este método, os pesquisadores afirmam ter sido capazes de “começar a entender o comportamento do modelo ao ver quais recursos respondem a uma entrada específica, fornecendo-nos, assim, insights sobre o ‘raciocínio’ do modelo para chegar a uma determinada resposta.”
Em uma entrevista com a equipe de pesquisa da Anthropic conduzida por Steven Levy da Wired, os funcionários explicaram como foi decifrar como funciona o “cérebro” de Claude. Uma vez que descobriram como decifrar um recurso, isso os levou a outros:
“Um recurso que chamou a atenção deles estava associado à Ponte Golden Gate. Eles mapearam o conjunto de neurônios que, quando ativados juntos, indicavam que Claude estava “pensando” na enorme estrutura que liga San Francisco ao Condado de Marin. Além disso, quando conjuntos semelhantes de neurônios disparavam, evocavam assuntos relacionados à Ponte Golden Gate: Alcatraz, o governador da Califórnia Gavin Newsom e o filme Vertigo, que foi ambientado em San Francisco. No total, a equipe identificou milhões de recursos – uma espécie de Pedra de Roseta para decodificar a rede neural de Claude.”
Deve-se notar que a Anthropic, assim como outras empresas com fins lucrativos, poderia ter certas motivações relacionadas a negócios para escrever e publicar sua pesquisa da maneira que fez. No entanto, o artigo da equipe é público, o que significa que você pode lê-lo por si mesmo e tirar suas próprias conclusões sobre suas descobertas e metodologias.