Apesar de serem criados por humanos, os grandes modelos de linguagem ainda são bastante misteriosos. Os algoritmos de alta octanagem que impulsionam nosso atual boom de inteligência artificial têm uma maneira de fazer coisas que não são facilmente explicáveis para as pessoas que os observam. É por isso que a inteligência artificial foi em grande parte chamada de “caixa preta”, um fenômeno que não é facilmente compreendido do lado de fora.
Uma nova pesquisa publicada pela Anthropic, uma das principais empresas do setor de IA, tenta lançar alguma luz sobre os aspectos mais confusos do comportamento algorítmico da IA. Na terça-feira, a Anthropic publicou um artigo científico projetado para explicar por que seu chatbot de IA, Claude, escolhe gerar conteúdo sobre certos assuntos em vez de outros.
Sistemas de IA são configurados em uma aproximação grosseira do cérebro humano – redes neurais em camadas que recebem e processam informações e depois tomam “decisões” ou previsões com base nessas informações. Tais sistemas são “treinados” em grandes subconjuntos de dados, o que lhes permite fazer conexões algorítmicas. No entanto, quando os sistemas de IA produzem dados com base em seu treinamento, os observadores humanos nem sempre sabem como o algoritmo chegou a esse resultado.
Essa incógnita deu origem ao campo da “interpretação de IA”, onde os pesquisadores tentam rastrear o caminho da tomada de decisão da máquina para entender sua saída. No campo da interpretação de IA, um “recurso” se refere a um padrão de “neurônios” ativados dentro de uma rede neural – efetivamente um conceito ao qual o algoritmo pode se referir. Quanto mais “recursos” dentro de uma rede neural os pesquisadores conseguem entender, mais eles podem compreender como determinadas entradas acionam a rede para afetar certas saídas.
Em um memorando sobre suas descobertas, os pesquisadores da Anthropic explicam como usaram um processo conhecido como “aprendizagem de dicionário” para decifrar quais partes da rede neural de Claude mapeavam conceitos específicos. Usando esse método, os pesquisadores afirmam que foram capazes de “começar a entender o comportamento do modelo ao ver quais recursos respondem a uma entrada específica, dando-nos assim uma visão sobre o ‘raciocínio’ do modelo para chegar a uma determinada resposta”.
Em uma entrevista com a equipe de pesquisa da Anthropic conduzida por Steven Levy do Wired, os funcionários explicaram como foi decifrar como o “cérebro” de Claude funciona. Uma característica que chamou a atenção deles estava associada à Ponte Golden Gate. Eles mapearam o conjunto de neurônios que, quando disparados juntos, indicavam que Claude estava “pensando” na imponente estrutura que liga São Francisco ao Condado de Marin. Além disso, quando conjuntos semelhantes de neurônios eram disparados, eles evocavam assuntos que estavam relacionados à Ponte Golden Gate: Alcatraz, o governador da Califórnia Gavin Newsom e o filme de Hitchcock “Um Corpo que Cai”, que se passava em São Francisco. No total, a equipe identificou milhões de recursos – uma espécie de Pedra de Roseta para decifrar a rede neural de Claude.
Deve-se notar que a Anthropic, como outras empresas com fins lucrativos, poderia ter certas motivações relacionadas aos negócios para escrever e publicar sua pesquisa da maneira que fez. Dito isso, o artigo da equipe é público, o que significa que você pode lê-lo por si mesmo e tirar suas próprias conclusões sobre suas descobertas e metodologias.