Sobremesa de Maçã e Canela

A Nvidia é a Taylor Swift das empresas de tecnologia. Seus clientes de IA desembolsam US $ 40.000 por chips avançados e às vezes esperam meses pela tecnologia da empresa, permanecendo leais mesmo com alternativas concorrentes surgindo. Essa devoção vem do fato de a Nvidia ser a maior fabricante de chips de IA da cidade. Mas também existem grandes razões técnicas que mantêm os usuários voltando.

Por exemplo, não é simples trocar um chip por outro – as empresas constroem seus produtos de IA conforme a especificação desses chips. Mudar para uma opção diferente pode significar voltar e reconfigurar modelos de IA, uma busca demorada e cara. Também não é fácil misturar e combinar diferentes tipos de chips. E não é apenas o hardware: CUDA, o software da Nvidia para controlar os chips de IA conhecidos como GPUs, funciona muito bem, disse Ray Wang, CEO da Constellation Research, com sede no Vale do Silício. Wang disse que isso ajuda a fortalecer a dominação de mercado da Nvidia.

“Não é como se houvesse um bloqueio”, disse ele. “É apenas que ninguém realmente gastou algum tempo para dizer: ‘Ei, vamos construir algo melhor'”.

Isso pode estar mudando. Nas últimas duas semanas, as empresas de tecnologia começaram a ir atrás do mercado da Nvidia, com a Meta, Alphabet (empresa mãe do Google) e AMD revelando novos chips ou atualizações. Outros, incluindo a Microsoft e a Amazon, também fizeram anúncios recentes sobre produtos de chips desenvolvidos internamente.

Embora seja improvável que a Nvidia seja removida tão cedo, esses esforços e outros poderiam ameaçar a estimada participação de mercado de 80% da empresa, explorando algumas das fraquezas do fabricante de chips, aproveitando um ecossistema em mudança – ou ambos.

Diferentes chips são melhores em diferentes tarefas de IA, mas alternar entre várias opções é um problema para os desenvolvedores. Pode até ser difícil para diferentes modelos do mesmo chip, disse Wang. Construir software que possa funcionar bem entre uma variedade de chips cria novas oportunidades para concorrentes, com Wang apontando para a oneAPI, uma startup que já está trabalhando em um produto assim.

“As pessoas vão perceber que às vezes precisam de CPUs, às vezes precisam de GPUs e às vezes precisam de TPUs, e você terá sistemas que realmente o guiam por esses três”, disse Wang, referindo-se a unidades de processamento central, unidades de processamento gráfico e unidades de processamento de tensor, três tipos diferentes de chips de IA.

Em 2011, o capitalista de risco Marc Andreessen proclamou famosamente que o software estava dominando o mundo. Isso ainda é verdade em 2024 quando se trata de chips de IA, que são cada vez mais impulsionados pela inovação de software. O mercado de chips de IA está passando por uma mudança familiar com reflexos nas telecomunicações, em que os clientes empresariais passaram a depender de soluções de software integradas em vez de vários componentes de hardware, disse Jonathan Rosenfeld, que lidera o grupo FundamentalAI no MIT FutureTech.

“Se você olhar para os avanços reais em hardware, eles não se devem à Lei de Moore ou algo parecido, nem remotamente”, disse Rosenfeld, que também é cofundador e CTO da startup de saúde AI somite.ai.

Essa evolução aponta para um futuro em que o software desempenha um papel crítico na otimização em diferentes plataformas de hardware, reduzindo a dependência de um único provedor. Embora o CUDA da Nvidia tenha sido uma ferramenta poderosa no nível do chip único, uma mudança para um cenário dependente de software exigido por modelos muito grandes que abrangem muitas GPUs não necessariamente beneficiará a empresa.

“Provavelmente veremos consolidação”, disse Rosenfeld. “Existem muitos entrantes, muito dinheiro e definitivamente muita otimização que pode acontecer.”

Rosenfeld não vê um futuro sem a Nvidia como uma força importante no treinamento de modelos de IA como o ChatGPT. O treinamento é como os modelos de IA aprendem a fazer tarefas, enquanto a inferência é quando eles usam esse conhecimento para realizar ações, como responder a perguntas dos usuários a um chatbot. As necessidades computacionais para essas duas etapas são distintas, e embora a Nvidia seja adequada para a parte de treinamento da equação, suas GPUs não são tão adequadas para inferência.

Apesar disso, a inferência representou cerca de 40% da receita de data centers da empresa nos últimos dois anos, disse a Nvidia em seu último relatório de resultados.

“Francamente, eles são melhores no treinamento”, disse Jonathan Ross, CEO e fundador da Groq, uma startup de chips de IA. “Você não pode construir algo que seja melhor nas duas coisas.”

O treinamento é onde você gasta dinheiro, e a inferência deve ser onde você ganha dinheiro, disse Ross. Mas as empresas podem ser surpreendidas quando um modelo de IA é colocado em produção e consome mais energia computacional do que o esperado, reduzindo os lucros.

Além disso, as GPUs, o principal chip fabricado pela Nvidia, não são particularmente rápidas para fornecer respostas para chatbots. Enquanto os desenvolvedores não perceberão um pequeno atraso ou demora durante um treinamento de um mês, as pessoas que usam chatbots querem respostas o mais rápido possível.

Então Ross, que anteriormente trabalhou em chips na Google, fundou a Groq para construir chips chamados Unidades de Processamento de Linguagem (LPUs), que são construídos especificamente para inferência. Um teste de terceiros da Artificial Analysis descobriu que o ChatGPT poderia rodar mais de 13 vezes mais rápido se estivesse usando os chips da Groq.

Ross não vê a Nvidia como uma concorrente, embora brinque que os clientes muitas vezes se vejam promovidos na fila para obter chips da Nvidia após comprar da Groq. Ele os vê mais como colegas no setor – fazendo o treinamento enquanto a Groq faz a inferência. Na verdade, Ross disse que a Groq poderia ajudar a Nvidia a vender mais chips.

“Quanto mais pessoas finalmente começarem a ganhar dinheiro com a inferência”, disse ele, “mais elas vão gastar com treinamento”.