Apesar de serem criados por humanos, os grandes modelos de linguagem ainda são bastante misteriosos. Os algoritmos de alta octanagem que impulsionam nosso atual boom da inteligência artificial têm uma forma de fazer coisas que não são facilmente explicáveis para as pessoas que os observam. É por isso que a IA em grande parte foi apelidada de “caixa preta”, um fenômeno que não é facilmente compreendido por quem está de fora.
Uma nova pesquisa publicada pela Anthropic, uma das principais empresas da indústria de IA, tenta jogar alguma luz sobre os aspectos mais confusos do comportamento algorítmico da IA. Na terça-feira, a Anthropic publicou um artigo de pesquisa projetado para explicar por que seu chatbot de IA, Claude, escolhe gerar conteúdo sobre certos assuntos em detrimento de outros.
Sistemas de IA são configurados de uma forma aproximada ao cérebro humano – redes neurais em camadas que recebem e processam informações e depois tomam “decisões” ou previsões com base nessas informações. Tais sistemas são “treinados” em grandes subconjuntos de dados, o que lhes permite fazer conexões algorítmicas. No entanto, quando os sistemas de IA geram dados com base em seu treinamento, os observadores humanos nem sempre sabem como o algoritmo chegou a esse resultado.
Essa incógnita deu origem ao campo de “interpretação de IA”, onde os pesquisadores tentam traçar o caminho da tomada de decisão da máquina para entender sua saída. No campo de interpretação de IA, um “recurso” refere-se a um padrão de “neurônios” ativados dentro de uma rede neural – efetivamente um conceito ao qual o algoritmo pode se referir. Quanto mais “recursos” dentro de uma rede neural os pesquisadores podem entender, mais eles podem compreender como determinadas entradas fazem a rede reagir a determinadas saídas.
Em um memorando sobre suas descobertas, os pesquisadores da Anthropic explicam como usaram um processo conhecido como “aprendizado de dicionário” para decifrar que partes da rede neural de Claude mapeavam para conceitos específicos. Usando esse método, os pesquisadores afirmam que foram capazes de “começar a entender o comportamento do modelo, vendo quais características respondem a uma entrada específica, nos dando assim uma visão do ‘raciocínio’ do modelo para chegar a uma determinada resposta.”
Em uma entrevista com a equipe de pesquisa da Anthropic conduzida por Steven Levy da Wired, os funcionários explicaram como foi decifrar como “funciona o cérebro” de Claude. Uma vez que descobriram como decifrar um recurso, isso levou a outros:
Um recurso que chamou a atenção deles estava associado à Ponte Golden Gate. Eles mapearam o conjunto de neurônios que, quando ativados juntos, indicavam que Claude estava “pensando” sobre a imensa estrutura que liga San Francisco ao Condado de Marin. Além disso, quando conjuntos similares de neurônios eram ativados, eles evocavam assuntos que eram adjacentes à Ponte Golden Gate: Alcatraz, o governador da Califórnia Gavin Newsom e o filme de Hitchcock Vertigo, que se passava em San Francisco. No total, a equipe identificou milhões de recursos – uma espécie de Pedra de Roseta para decodificar a rede neural de Claude.
Importante notar que a Anthropic, como outras empresas com fins lucrativos, poderia ter certas motivações comerciais para escrever e publicar sua pesquisa da maneira que fez. No entanto, o artigo da equipe é público, o que significa que você pode lê-lo e tirar suas próprias conclusões sobre suas descobertas e metodologias.