Um estudo recente realizado por pesquisadores da Apple concluiu que os grandes modelos de linguagem usados em plataformas de inteligência artificial não são tão inteligentes quanto parecem. O método utilizado para avaliar as habilidades de raciocínio desses modelos, conhecido como GSM8K, pode não ser tão confiável, uma vez que os modelos podem ter tido acesso às respostas durante o treinamento, o que explicaria seus bons resultados.
Partindo dessa premissa, os pesquisadores da Apple desenvolveram um novo método, chamado de GSM-Symbolic, que mantém a mesma estrutura das questões de raciocínio, mas modifica as variáveis. Os resultados obtidos revelaram uma falha nos modelos de linguagem natural, com desempenho semelhante em modelos da OpenAI, Microsoft, Google e Meta. Eles observaram que os modelos estão mais próximos de identificar padrões complexos do que de raciocinar efetivamente.
Mesmo modelos como o o1 da OpenAI, que deveria refletir sobre as questões antes de responder, apresentaram queda na precisão, o que sugere que os modelos têm dificuldade em interpretar informações relevantes. O estudo destaca a importância de manter a cautela em relação aos grandes modelos de IA que prometem revolucionar o mundo, visto que ainda há limitações em sua capacidade de compreensão de conceitos matemáticos e relevância de informações.