Existe uma CPU. Existe uma GPU. No último ano, toda empresa de tecnologia vem falando sobre “NPUs”. Se você não sabia dos dois primeiros, provavelmente está perplexo com o terceiro e por que a indústria de tecnologia exalta os benefícios de uma unidade de processamento neural. Como você pode ter imaginado, tudo isso se deve ao ciclo de hype contínuo em torno da IA. No entanto, as empresas de tecnologia têm sido bastante ruins em explicar o que essas NPUs fazem ou por que você deveria se importar.
Todo mundo quer um pedaço da torta de IA. Google mencionou “IA” mais de 120 vezes durante a conferência para desenvolvedores I/O deste mês, onde as possibilidades de novos aplicativos e assistentes de IA praticamente encantaram seus anfitriões. Durante sua recente conferência Build, a Microsoft estava toda empolgada com seus novos PCs Copilot+ baseados em ARM que usam o Qualcomm Snapdragon X Elite e X Plus. Qualquer CPU ainda oferecerá uma NPU com 45 TOPS. O que isso significa? Bem, os novos PCs devem ser capazes de suportar IA no dispositivo. No entanto, quando você pensa sobre isso, é exatamente o que a Microsoft e a Intel prometeram no final do ano passado com o chamado “PC de IA”.
Se você comprou um novo laptop com um chip Intel Core Ultra este ano com a promessa de IA no dispositivo, provavelmente não está muito feliz por ter ficado para trás. A Microsoft disse ao Gizmodo que apenas os PCs Copilot+ terão acesso a recursos baseados em IA como o Recall “devido aos chips que os executam”.
No entanto, houve alguma controvérsia quando o conhecido vazador Albacore afirmou que poderia executar o Recall em outro PC baseado em ARM64 sem depender da NPU. Os novos laptops ainda não estão disponíveis, mas teremos que esperar para ver quanto pressão os novos recursos de IA exercem sobre os processadores neurais.
Mas se você realmente está curioso sobre o que está acontecendo com as NPUs e por que todos, desde a Apple até a Intel e pequenas startups de PCs, estão falando sobre elas, preparamos um explicador para colocá-lo a par.
Explicando a NPU e ‘TOPS’
Então, primeiro, devemos oferecer às pessoas nos bastidores uma rápida visão geral das capacidades de computação do seu PC comum. A CPU, ou “unidade central de processamento”, é – essencialmente – o “cérebro” do computador que processa a maioria das tarefas do usuário. A GPU, ou “unidade de processamento gráfico”, é mais especializada em lidar com tarefas que requerem grandes quantidades de dados, como renderizar um objeto 3D ou jogar um videogame. As GPUs podem ser uma unidade separada dentro do PC, ou podem estar embutidas na própria CPU.
Nesse sentido, a NPU é mais próxima da GPU em termos de sua natureza especializada, mas você não encontrará um processador neural separado fora da unidade central ou da unidade de processamento gráfico, pelo menos por enquanto. É um tipo de processador projetado para lidar com as computações matemáticas específicas de algoritmos de aprendizado de máquina. Essas tarefas são processadas “em paralelo”, o que significa que ele dividirá as solicitações em tarefas menores e, em seguida, as processará simultaneamente. É especificamente projetado para lidar com as demandas intensas de redes neurais sem aproveitar nenhum dos outros processadores do sistema.
O padrão para julgar a velocidade da NPU é em TOPS, ou “trilhões de operações por segundo”. Atualmente, é a única maneira que as grandes empresas de tecnologia têm de comparar sua capacidade de processamento neural entre si. Também é uma maneira incrivelmente simplificada de comparar as velocidades de processamento. CPUs e GPUs oferecem muitos pontos de comparação diferentes, desde o número e tipos de núcleos até velocidades de clock gerais ou teraflops, e mesmo assim isso não arranha a superfície das complicações envolvidas na arquitetura dos chips. A Qualcomm explica que TOPS é apenas uma equação matemática rápida e suja combinando a velocidade e precisão dos processadores neurais.
Talvez um dia olhemos para as NPUs com a mesma granularidade que as CPUs ou GPUs, mas isso só pode acontecer depois que superarmos o atual ciclo de hype em torno da IA. E mesmo assim, nenhuma dessas delimitações de processadores está definitivamente estabelecida. Também há a ideia de GPNPUs, que são basicamente uma combinação de capacidades de GPU e NPU. Em breve, teremos que dividir as capacidades de PCs menores capazes de IA com os maiores que poderiam lidar com centenas ou até mesmo milhares de TOPS.
As NPUs estão presentes há vários anos tanto em telefones quanto em PCs
Os telefones já estavam usando NPUs muito antes da maioria das pessoas ou empresas se importar. O Google falava sobre NPUs e capacidades de IA desde o Pixel 2. A Huawei centrada na China e a Asus estrearam NPUs em telefones como o Mate 10 de 2017 e o Zenphone 5 de 2018. Ambas as empresas tentaram impulsionar as capacidades de IA em ambos os dispositivos naquela época, embora clientes e revisores estivessem muito mais céticos sobre suas capacidades do que hoje.
De fato, as NPUs de hoje são muito mais poderosas do que eram há seis ou oito anos, mas se você não prestou atenção, a capacidade neural da maioria desses dispositivos teria passado despercebida por você.
Os chips de computador já ostentam processadores neurais há anos antes de 2023. Por exemplo, as CPUs da série M da Apple, os chips baseados em ARC da empresa, já suportavam capacidades neurais em 2020. O chip M1 tinha 11 TOPS, e o M2 e M3 tinham 15,8 e 19 TOPS, respectivamente. Foi apenas com o chip M4 dentro do novo iPad Pro 2024 que a Apple decidiu que precisava se gabar da velocidade de 38 TOPS de sua mais recente engine neural. E que aplicativos de IA realmente fazem uso dessa nova capacidade do iPad Pro? Não muitos, para ser honesto. Talvez vejamos mais em algumas semanas na WWDC 2024, mas teremos que esperar para ver.
A obsessão atual com as NPUs é parte hardware e parte hype
A ideia por trás da NPU é que ela deve ser capaz de retirar o fardo de executar a IA no dispositivo da CPU ou da GPU, permitindo aos usuários executar programas de IA, sejam geradores de arte de IA ou chatbots, sem diminuir a velocidade de seus PCs. O problema é que todos nós ainda estamos procurando por aquele programa de IA verdadeiramente capaz de usar as capacidades aumentadas de IA.
O Gizmodo conversou com os principais fabricantes de chips ao longo do último ano, e a única coisa que continuamos ouvindo é que os fabricantes de hardware sentem que, pela primeira vez, superaram a demanda de software. Durante muito tempo, era o oposto. Os fabricantes de software iriam empurrar os limites do que está disponível no hardware de ponta do consumidor, forçando os fabricantes de chips a acompanhá-los.
No entanto, desde 2023, só vimos algumas aplicações marginais de IA capazes de serem executadas no dispositivo. A maioria das demonstrações das capacidades de IA dos chips da Qualcomm ou Intel geralmente envolvem executar o recurso de desfoque de fundo no Zoom. Ultimamente, vimos empresas medindo suas NPUs com o modelo gerador de música de IA Riffusion em aplicativos existentes como Audacity ou com legendas ao vivo no OBS Studio. Claro, você pode encontrar alguns aplicativos com chatbots capazes de funcionar no dispositivo, mas um LLM menos capaz e menos sutil não parece ser o aplicativo matador que fará todo mundo correr para comprar o mais recente smartphone ou “PC de IA”.
Em vez disso, estamos limitados a aplicativos relativamente simples com o Gemini Nano nos telefones Pixel, como resumos de texto e áudio. As menores versões de IA do Google estão chegando ao Pixel 8 e 8a. Os recursos de IA da Samsung que antes eram exclusivos do Galaxy S24 já chegaram a telefones mais antigos e em breve devem chegar aos dispositivos vestíveis da empresa. Não medimos a velocidade dessas capacidades de IA em dispositivos mais antigos, mas isso aponta para como dispositivos mais antigos, desde 2021, já tinham muita capacidade de processamento neural.
A IA no dispositivo ainda é prejudicada pela falta de poder de processamento para produtos de consumo final. Microsoft, OpenAi e Google precisam executar grandes data centers com centenas de GPUs avançadas da Nvidia, como a H100 (a Microsoft e outros estão trabalhando em seus próprios chips de IA, segundo relatos), para processar alguns dos LLMs ou chatbots mais avançados com modelos como o Gemini Advanced ou GPT 4o. Isso não é barato em termos de dinheiro ou recursos como energia e água, mas é por isso que grande parte dos modelos de IA mais avançados que os consumidores podem pagar estão rodando na nuvem. Ter a IA sendo executada no dispositivo beneficia os usuários e o meio ambiente. Se as empresas acham que os consumidores exigem os modelos de IA mais recentes e avançados, o software continuará superando o que é possível em um dispositivo de consumo final.