“A Importância Da Leitura Na Infância”

Nesta História

Dias após a startup chinesa de inteligência artificial DeepSeek provocar uma desvalorização global de ações de tecnologia, um concorrente local disse que seu novo modelo de IA teve um desempenho ainda melhor.

A Alibaba Cloud lançou uma versão atualizada de seu modelo de IA principal, Qwen2.5-Max, que teve um desempenho superior aos principais concorrentes de código aberto, incluindo o modelo V3 da DeepSeek e o modelo Llama 3.1 da Meta, em vários benchmarks, de acordo com resultados publicados pela empresa no WeChat. A subsidiária de computação em nuvem do Grupo Alibaba também descobriu que seu Qwen2.5-Max apresentou desempenho comparável ao GPT-4 da OpenAI e ao Claude 3.5 Sonnet da Anthropic – ambos modelos de código fechado.

A empresa chinesa afirmou que seu modelo de IA “demonstrou um desempenho de modelo liderando o mundo em benchmarks autoritativos mainstream”, incluindo o Massive Multitask Language Understanding (MMLU), que avalia conhecimentos gerais, e o LiveCodeBench, que testa habilidades de codificação.

O anúncio do Qwen2.5-Max segue o lançamento do modelo DeepSeek-R1 da DeepSeek na semana passada, que demonstrou desempenho comparável aos modelos de raciocínio O1-mini e O1 da OpenAI em diversos benchmarks da indústria, de acordo com seu artigo técnico.

O lançamento do DeepSeek-R1 levou as futuras da Nasdaq, Dow Jones Industrial Average e S&P 500 a caírem na manhã de segunda-feira. As ações da Nvidia despencaram 17%, eliminando quase US$ 600 bilhões em valor – uma perda recorde para uma empresa dos EUA.

Os investidores ficaram assustados com o lançamento do DeepSeek-R1, que veio após o lançamento do DeepSeek-V3 em dezembro. Enquanto a Alibaba Cloud não divulgou seus custos de desenvolvimento, a alegação da DeepSeek de que construiu seu modelo por apenas US$ 5,6 milhões usando unidades gráficas de processamento de menor capacidade da Nvidia chamou a atenção do mercado, desafiando pressupostos sobre os investimentos massivos necessários para o desenvolvimento de IA.

De acordo com o artigo técnico, a DeepSeek utilizou um cluster com quase 2.050 chips Nvidia H800 para treinar seu modelo V3 – uma versão menos potente do chipmaker H100, que é autorizado a vender para empresas chinesas sob restrições de chips dos EUA. O cluster também é muito menor do que os dezenas de milhares de chips que as empresas dos EUA estão usando para treinar modelos de tamanho semelhante.

O lançamento da DeepSeek questionou os gastos de dezenas de bilhões de dólares em IA das Big Techs, bem como a eficácia dos esforços dos EUA para conter a entrada de chips avançados no país antes de uma série de resultados financeiros.