Apesar de serem criados por humanos, os grandes modelos de linguagem ainda são bastante misteriosos. Os algoritmos de alta potência que impulsionam o atual boom da inteligência artificial têm uma maneira de fazer coisas que não são facilmente explicáveis para as pessoas que os observam. É por isso que a IA tem sido amplamente chamada de “caixa-preta”, um fenômeno que não é facilmente compreendido externamente.
Uma nova pesquisa publicada pela Anthropic, uma das principais empresas da indústria de IA, tenta lançar alguma luz sobre os aspectos mais confusos do comportamento algorítmico da IA. No texto, os pesquisadores da Anthropic explicam como usaram um processo conhecido como “aprendizado de dicionário” para decifrar quais partes da rede neural de Claude mapeavam para conceitos específicos. Usando esse método, os pesquisadores afirmam que conseguiram “começar a entender o comportamento do modelo, vendo quais características respondem a uma entrada específica, nos dando assim uma visão do ‘raciocínio’ do modelo sobre como ele chegou a uma determinada resposta.”
Na entrevista da equipe de pesquisa da Anthropic conduzida por Steven Levy, da Wired, os funcionários explicaram como foi decifrar como funciona o “cérebro” de Claude. Uma das características que se destacou para eles estava associada à Ponte Golden Gate. Eles mapearam o conjunto de neurônios que, quando disparados em conjunto, indicavam que Claude estava “pensando” sobre a estrutura massiva que liga São Francisco ao Condado de Marin. Além disso, quando conjuntos semelhantes de neurônios dispararam, evocaram temas relacionados à Ponte Golden Gate: Alcatraz, o governador da Califórnia Gavin Newsom e o filme Hitchcock “Um Corpo Que Cai”, que se passa em São Francisco. No total, a equipe identificou milhões de características – uma espécie de Pedra de Roseta para decodificar a rede neural de Claude.
Deve-se notar que a Anthropic, assim como outras empresas com fins lucrativos, pode ter certas motivações relacionadas aos negócios para escrever e publicar sua pesquisa da maneira como fez. No entanto, o artigo da equipe é público, o que significa que você pode lê-lo por si mesmo e tirar suas próprias conclusões sobre suas descobertas e metodologias.