Apesar de serem criados por humanos, os grandes modelos de linguagem ainda são bastante misteriosos. Os algoritmos de alta potência que impulsionam o atual boom da inteligência artificial têm uma maneira de fazer coisas que não são facilmente explicáveis para as pessoas que os observam. É por isso que a IA foi amplamente apelidada de “caixa preta”, um fenômeno que não é facilmente compreendido do lado de fora.
Uma nova pesquisa publicada pela Anthropic, uma das principais empresas do setor de IA, busca esclarecer os aspectos mais confusos do comportamento algorítmico da IA. Na terça-feira, a Anthropic publicou um artigo de pesquisa projetado para explicar por que seu chatbot de IA, Claude, escolhe gerar conteúdo sobre determinados assuntos em detrimento de outros.
Os sistemas de IA são configurados em uma aproximação rudimentar do cérebro humano – redes neurais em camadas que processam informações e depois tomam “decisões” ou previsões com base nessas informações. Tais sistemas são “treinados” em grandes subconjuntos de dados, o que lhes permite fazer conexões algorítmicas. No entanto, quando os sistemas de IA produzem dados com base em seu treinamento, os observadores humanos nem sempre sabem como o algoritmo chegou a essa saída.
Essa incógnita deu origem ao campo da “interpretação da IA”, onde os pesquisadores tentam traçar o caminho da tomada de decisões da máquina para entender sua saída. Em termos de interpretação da IA, um “recurso” se refere a um padrão de “neurônios” ativados dentro de uma rede neural – efetivamente um conceito ao qual o algoritmo pode se referir. Quanto mais “recursos” dentro de uma rede neural os pesquisadores podem entender, mais eles conseguem entender como determinadas entradas acionam a rede para afetar determinadas saídas.
Em um memorando sobre suas descobertas, os pesquisadores da Anthropic explicam como usaram um processo conhecido como “aprendizado de dicionário” para decifrar quais partes da rede neural de Claude se mapeavam em conceitos específicos. Usando esse método, os pesquisadores afirmam ter sido capazes de “começar a entender o comportamento do modelo, vendo quais recursos respondem a uma entrada específica, dando-nos assim uma visão do ‘raciocínio’ do modelo para chegar a uma determinada resposta”.
Numa entrevista com a equipe de pesquisa da Anthropic conduzida por Steve Levy, da Wired, os funcionários explicaram como foi decifrar o funcionamento da “mente” de Claude. Uma característica que chamou a atenção deles estava associada à Ponte Golden Gate. Eles mapearam o conjunto de neurônios que, quando disparados juntos, indicavam que Claude estava “pensando” na enorme estrutura que liga São Francisco ao condado de Marin. Além disso, quando conjuntos semelhantes de neurônios dispararam, evocaram assuntos relacionados à Ponte Golden Gate: Alcatraz, o governador da Califórnia Gavin Newsom e o filme de Hitchcock “Um Corpo que Cai”, que se passa em São Francisco. No total, a equipe identificou milhões de recursos – uma espécie de Pedra de Roseta para decodificar a rede neural de Claude.
É importante observar que a Anthropic, como outras empresas com fins lucrativos, pode ter certas motivações comerciais para escrever e publicar sua pesquisa da maneira como fez. No entanto, o artigo da equipe é público, o que significa que você pode lê-lo por si mesmo e tirar suas próprias conclusões sobre suas descobertas e metodologias.