Apesar de serem criados por humanos, os grandes modelos de linguagem ainda são bastante misteriosos. Os algoritmos de alta potência que impulsionam o atual boom da inteligência artificial têm uma maneira de fazer as coisas que não são facilmente explicáveis para as pessoas que os observam. É por isso que a inteligência artificial foi amplamente chamada de “caixa preta”, um fenômeno que não é facilmente compreendido de fora.
Uma pesquisa recém-publicada da Anthropic, uma das principais empresas do setor de IA, tenta esclarecer os aspectos mais confusos do comportamento algorítmico da IA. Na terça-feira, a Anthropic publicou um artigo de pesquisa projetado para explicar por que seu chatbot de IA, Claude, opta por gerar conteúdo sobre determinados assuntos em vez de outros.
Sistemas de IA são configurados de forma aproximada ao cérebro humano – redes neurais em camadas que absorvem e processam informações e depois fazem “decisões” ou previsões com base nessas informações. Tais sistemas são “treinados” em grandes subconjuntos de dados, o que lhes permite fazer conexões algorítmicas. No entanto, quando os sistemas de IA geram dados com base em seu treinamento, os observadores humanos nem sempre sabem como o algoritmo chegou a esse resultado.
Esse mistério deu origem ao campo da “interpretação de IA”, onde os pesquisadores tentam traçar o caminho da tomada de decisão da máquina para entender sua saída. No campo da interpretação de IA, um “recurso” refere-se a um padrão de “neurônios” ativados dentro de uma rede neural — efetivamente um conceito ao qual o algoritmo pode se referir. Quanto mais “recursos” dentro de uma rede neural os pesquisadores conseguem entender, mais podem entender como determinadas entradas acionam a rede para afetar determinadas saídas.
Em um memorando sobre suas descobertas, os pesquisadores da Anthropic explicam como usaram um processo conhecido como “aprendizado de dicionário” para decifrar que partes da rede neural de Claude mapeavam para conceitos específicos. Usando esse método, os pesquisadores afirmam que conseguiram “começar a entender o comportamento do modelo ao ver quais recursos respondem a uma entrada específica, dando-nos assim uma visão sobre o ‘raciocínio’ do modelo sobre como ele chegou a uma determinada resposta.”
Em uma entrevista com a equipe de pesquisa da Anthropic conduzida por Steven Levy da Wired, os funcionários explicaram como foi decifrar como funciona o “cérebro” de Claude. Uma característica que se destacou para eles estava associada à Golden Gate Bridge. Eles mapearam o conjunto de neurônios que, quando disparados juntos, indicavam que Claude estava “pensando” sobre a estrutura maciça que liga São Francisco ao Condado de Marin. Além disso, quando conjuntos semelhantes de neurônios disparavam, evocavam assuntos relacionados à Golden Gate Bridge: Alcatraz, o Governador da Califórnia Gavin Newsom e o filme de Hitchcock “Um Corpo Que Cai”, que se passa em São Francisco. No total, a equipe identificou milhões de recursos – uma espécie de Pedra de Roseta para decodificar a rede neural de Claude.
É importante notar que a Anthropic, assim como outras empresas com fins lucrativos, poderia ter certas motivações comerciais para escrever e publicar sua pesquisa da maneira como fez. Dito isso, o artigo da equipe é público, o que significa que você pode lê-lo e tirar suas próprias conclusões sobre suas descobertas e metodologias.