A Importância Da Educação De Qualidade Para O Sucesso Das Crianças

Uma versão deste artigo apareceu originalmente na newsletter Weekend Brief exclusiva para membros da Quartz. Os membros da Quartz têm acesso a newsletters exclusivas e muito mais. Inscreva-se aqui. Pouco tempo após o lançamento do ChatGPT, um e-mail vazado do Google disse o que muitos estavam pensando, mas poucos ousavam dizer em voz alta: “Não temos uma posição defensável. E o OpenAI também não”. O memorando de maio de 2023 argumentou que as empresas nunca iriam pagar por IA generativa quando havia opções de código aberto disponíveis – e muitas vezes esses modelos eram melhores de qualquer maneira. No mesmo mês, do outro lado do mundo, um empreendedor chamado Liang Wenfeng fundou silenciosamente a DeepSeek na China.

Um ano e meio depois, a DeepSeek provaria que o Google estava certo. Quando a DeepSeek revelou seu modelo V3 no ano passado, que a empresa afirmou ter treinado por apenas $5,6 milhões, com chips inferiores – menos de 6% dos custos de treinamento do GPT-4 – isso enviou ondas de choque pela indústria. E na semana passada, a empresa lançou o R1, um novo modelo de raciocínio que pode resolver problemas complexos passo a passo, equiparando-se às capacidades dos sistemas especializados de raciocínio da OpenAI.

Essas descobertas levaram as ações de tecnologia americanas a uma queda livre na segunda-feira e expuseram uma verdade desconfortável: pode ser que não existam barreiras defensáveis na área de IA. As barreiras tecnológicas que deveriam proteger a predominância da IA na América, desde chips avançados até enormes centros de dados, são mais miragem do que fortaleza. No entanto, enquanto esses modelos podem representar um problema para empresas que contam com vantagens proprietárias ou buscam grandes rodadas de financiamento, a DeepSeek poderia inaugurar uma nova era de desenvolvimento de IA mais eficiente e acessível.

Não foram apenas as empresas construindo IA generativa que sofreram impacto. Para os investidores que viam a Nvidia como a escolha perfeita em uma corrida do ouro da IA, a revelação da DeepSeek também foi devastadora. As ações da empresa despencaram na segunda-feira, perdendo quase US$ 600 bilhões no maior baque em valor de mercado em um único dia na história. Acontece que não há defesa para o software, como alertou o Google, e talvez também não haja para o hardware. Isso é chocante para uma empresa cuja valorização estrondosa foi construída com a ideia de que a demanda da IA por silício de ponta só aumentaria.

A descoberta da DeepSeek veio do treinamento de seu modelo em cerca de 2.000 GPUs H800 da Nvidia – chips projetados especificamente com capacidades reduzidas para cumprir controles de exportação dos EUA para a China. Estes são os primos prejudicados das cobiçadas H100s que as empresas americanas usam, com velocidades de comunicação chip-a-chip deliberadamente limitadas que deveriam torná-los insuficientes para o treinamento de modelos avançados de IA. No entanto, a DeepSeek conseguiu criar um modelo competitivo apesar dessas limitações.

As sanções de chip avançado implementadas pela administração Biden pretendiam impedir exatamente esse cenário. Mas, em vez de enfraquecer as capacidades de IA da China, o embargo parece ter sido o catalisador. A DeepSeek foi forçada a inovar de maneiras que desafiam agora as suposições fundamentais do Vale do Silício, embora seu fundador, Wenfeng, tenha reconhecido que a falta de chips de alta qualidade continua sendo um gargalo, de acordo com o Wall Street Journal.

As implicações dos chips vão além dos custos de treinamento. Quando as empresas encontram formas mais eficientes de treinar modelos de IA, essas eficiências muitas vezes se refletem na execução dos modelos no uso diário – o que é conhecido como inferência na indústria. A DeepSeek cobra $2,19 por milhão de tokens de saída, em comparação com $15 pelo último modelo da OpenAI. Essa não é o tipo de eficiência estreita que pode ser ignorada – é uma diferença de sete vezes que ameaça remodelar a economia da implantação de IA.

Alguns líderes de tecnologia estão questionando se o que a DeepSeek fez realmente foi possível com o orçamento declarado e o suprimento de chips. O Meta teria criado “salas de guerra” para investigar esses modelos. A Microsoft está investigando se a DeepSeek teve acesso à tecnologia da OpenAI que poderia estar por trás de algumas de suas capacidades.

Se as alegações da DeepSeek se confirmarem, isso mudará o cenário para a construção frenética de data centers nos Estados Unidos, incluindo o projeto Stargate de $500 milhões anunciado na Casa Branca na semana passada. Todas essas instalações enormes pareciam urgentes com base nos custos astronômicos de treinar modelos feitos nos EUA: o CEO da OpenAI, Sam Altman, disse que o GPT-4 custou “mais de” $100 milhões para treinar, e o CEO da Anthropic, Dario Amodei, previu que poderíamos ver um modelo de $10 bilhões este ano.

Mas se eles podem ser treinados por uma fração desse custo em hardware menos potente, a corrida para construir pode parecer mais como uma reação exagerada e custosa. Alguns, como o cientista-chefe de IA do Meta, Yann LeCunn, argumentam que ainda precisaremos dessa infraestrutura para executar os serviços de IA em escala. Mas as descobertas da DeepSeek sugerem que ainda há grandes ganhos de eficiência a serem encontrados tanto no treinamento quanto na implantação, o que os pesquisadores deveriam estar animados.

É um padrão visto repetidas vezes. Assim como o custo de processamento de computadores despencou desde os primeiros mainframes – com smartphones agora oferecendo mais poder de computação do que as máquinas que enviaram astronautas à lua – sempre houve motivos para acreditar que o enorme apetite energético da IA diminuiria. As primeiras iterações de qualquer tecnologia raramente são eficientes, e a conta para a IA generativa sempre acabaria chegando: as empresas precisam começar a ganhar dinheiro eventualmente, e isso provavelmente é impossível nos níveis atuais de consumo de energia.

Ou, como Brian Cahn, da Sequoia Capital, coloca, há uma questão de $600 bilhões (que aumentou de sua estimativa inicial de $200 bilhões no verão passado, à medida que os investimentos em IA continuavam a aumentar enquanto as receitas permaneciam ilusórias) – a diferença entre o que as empresas de tecnologia estão gastando em IA e o que estão obtendo com ela.

A descoberta de código aberto da DeepSeek poderia ajudar a fechar essa lacuna. Como é de código aberto, nada impede as empresas de tecnologia americanas de adotarem essas técnicas de eficiência. Seus próprios custos de treinamento e inferência poderiam despencar. E enquanto uma IA mais barata pode parecer uma má notícia para as gigantes da tecnologia, Satya Nadella vê isso de forma diferente. “O paradoxo de Jevons ataca novamente!”, o CEO da Microsoft postou no X. “À medida que a IA se tornar mais eficiente e acessível, veremos seu uso disparar, transformando-a em uma commodity da qual simplesmente não podemos ter o bastante”.

A revelação de código aberto pode marcar mais do que apenas um ponto de virada técnico. A história da IA tem mostrado que as maiores descobertas muitas vezes vêm de pesquisadores construindo abertamente sobre o trabalho uns dos outros – desde o desenvolvimento de redes neurais até a arquitetura transformadora que impulsiona a IA atual.

Poderia reverter o que o pesquisador do Google François Chollet argumentou ser o maior impacto da OpenAI: atrasar a inteligência artificial geral em “5 a 10 anos” quando parou de publicar suas pesquisas, o que encorajou menos compartilhamento no campo, tudo para proteger sua vantagem. Aquela defesa nunca esteve lá.

Mas acreditar nela pode ter impedido o avanço da IA mais do que qualquer limitação técnica já fez.