Estudando Por Que A IA Se Comporta Da Maneira Que Ela Faz Com o Apoio da Amazon, a Anthropic

Apesar de serem criados por humanos, os grandes modelos de linguagem ainda são bastante misteriosos. Os algoritmos de alta octanagem que impulsionam o atual boom da inteligência artificial têm uma maneira de fazer coisas que não são explicáveis externamente para as pessoas que os observam. É por isso que a IA tem sido em grande parte apelidada de “caixa preta”, um fenômeno que não é facilmente compreendido do lado de fora.

Uma nova pesquisa publicada pela Anthropic, uma das principais empresas da indústria de IA, tenta lançar alguma luz sobre os aspectos mais confusos do comportamento algorítmico da IA. Na terça-feira, a Anthropic publicou um artigo de pesquisa projetado para explicar por que seu chatbot de IA, Claude, escolhe gerar conteúdo sobre determinados assuntos em detrimento de outros.

Sistemas de IA são configurados de forma aproximada ao cérebro humano – redes neurais estratificadas que recebem e processam informações para, em seguida, tomar “decisões” ou previsões com base nessas informações. Tais sistemas são “treinados” em grandes subconjuntos de dados, o que lhes permite fazer conexões algorítmicas. No entanto, quando os sistemas de IA geram dados com base em seu treinamento, os observadores humanos nem sempre sabem como o algoritmo chegou a esse resultado.

Esse mistério deu origem ao campo da “interpretação de IA”, onde os pesquisadores tentam traçar o caminho da tomada de decisão da máquina para que possam entender sua saída. Em um memorando sobre suas descobertas, os pesquisadores da Anthropic explicam como usaram um processo conhecido como “aprendizado de dicionário” para decifrar quais partes da rede neural de Claude se mapeavam para conceitos específicos. Usando esse método, os pesquisadores afirmam ter conseguido “começar a entender o comportamento do modelo ao ver quais características respondem a uma entrada específica, dando-nos assim uma visão sobre o ‘raciocínio’ do modelo para como ele chegou a uma determinada resposta”.

Em uma entrevista com a equipe de pesquisadores da Anthropic conduzida por Steven Levy, da Wired, os funcionários explicaram como foi decifrar como o “cérebro” de Claude funcionava. Uma característica que se destacou para eles estava associada à Ponte Golden Gate. Eles mapearam o conjunto de neurônios que, quando disparados juntos, indicavam que Claude estava “pensando” na estrutura maciça que liga São Francisco ao Condado de Marin. Além disso, quando conjuntos semelhantes de neurônios disparavam, evocavam temas associados à Ponte Golden Gate: Alcatraz, o governador da Califórnia Gavin Newsom, e o filme de Hitchcock “Um Corpo que Cai”, ambientado em São Francisco. No total, a equipe identificou milhões de características – uma espécie de Pedra de Roseta para decifrar a rede neural de Claude.

É importante ressaltar que a Anthropic, como outras empresas com fins lucrativos, poderia ter certas motivações relacionadas aos negócios para escrever e publicar sua pesquisa da forma como fez. No entanto, o artigo da equipe é público, o que significa que você pode lê-lo e tirar suas próprias conclusões sobre suas descobertas e metodologias.