Há uma CPU. Há uma GPU. No último ano, todas as empresas de tecnologia têm falado sobre “NPUs”. Se você não conhecia os primeiros dois, provavelmente está confuso em relação ao terceiro e por que a indústria tecnológica está exaltando os benefícios de uma unidade de processamento neural. Como você pode imaginar, isso tudo se deve ao ciclo de hype contínuo em torno da inteligência artificial. E ainda assim, as empresas de tecnologia têm sido bastante ruins em explicar o que essas NPUs fazem ou por que você deveria se importar.
Todos querem uma fatia do bolo da IA. O Google disse “IA” mais de 120 vezes durante a conferência de desenvolvedores I/O deste mês, onde as possibilidades de novos aplicativos e assistentes de IA praticamente encantaram seus anfitriões. Durante sua recente conferência Build, a Microsoft apostou em seus novos PCs Copilot+ baseados em ARM com os processadores Qualcomm Snapdragon X Elite e X Plus. Ambas as CPUs ainda oferecerão uma NPU com 45 TOPS. O que isso significa? Bem, os novos PCs deveriam ser capazes de suportar IA no dispositivo. No entanto, quando você pensa sobre isso, é exatamente o que a Microsoft e a Intel prometeram no final do ano passado com o chamado “PC de IA”.
Se você comprou um novo laptop com um chip Intel Core Ultra este ano com a promessa de IA no dispositivo, provavelmente não está muito feliz por ter ficado para trás. A Microsoft disse ao Gizmodo que apenas os PCs Copilot+ terão acesso a recursos baseados em IA como o Recall “devido aos chips que os executam”.
No entanto, houve algumas controvérsias quando o conhecido vazador Albacore afirmou que poderia executar o Recall em outro PC baseado em ARM64 sem depender da NPU. Os novos laptops ainda não estão disponíveis, mas teremos que esperar para ver quanto de pressão os novos recursos de IA colocam nos processadores neurais.
Mas se você está realmente curioso sobre o que está acontecendo com as NPUs e por que todos, desde a Apple até a Intel e pequenas startups de PCs, estão falando sobre elas, preparamos um guia para você se atualizar.
Explicando a NPU e ‘TOPS’
Então, primeiro, devemos oferecer às pessoas nos bastidores uma rápida visão geral das capacidades de computação do seu PC comum. A CPU, ou “unidade central de processamento”, é—essencialmente—o “cérebro” do computador processando a maioria das tarefas do usuário. A GPU, ou “unidade de processamento gráfico”, é mais especializada para lidar com tarefas que exigem grandes quantidades de dados, como renderizar um objeto 3D ou jogar um videogame. As GPUs podem ser uma unidade discreta dentro do PC, ou podem estar embutidas na própria CPU.
Dessa forma, a NPU é mais próxima da GPU em termos de sua natureza especializada, mas você não encontrará um processador neural separado fora da unidade central ou de processamento gráfico, pelo menos por enquanto. É um tipo de processador projetado para lidar com os cálculos matemáticos específicos de algoritmos de aprendizado de máquina. Essas tarefas são processadas “em paralelo”, o que significa que ele dividirá as solicitações em tarefas menores e, em seguida, as processará simultaneamente. É especificamente projetado para lidar com as demandas intensas de redes neurais sem utilizar nenhum dos outros processadores do sistema.
O padrão para julgar a velocidade da NPU é em TOPS, ou “trilhões de operações por segundo”. Atualmente, é a única maneira que as grandes empresas de tecnologia têm de comparar sua capacidade de processamento neural entre si. É também uma forma incrivelmente simplista de comparar velocidades de processamento. CPUs e GPUs oferecem muitos pontos de comparação diferentes, desde o número e tipos de núcleos até velocidades de clock gerais ou teraflops, e mesmo assim isso não arranha a superfície das complicações envolvidas com a arquitetura dos chips. A Qualcomm explica que os TOPS são apenas uma equação matemática rápida e suja que combina a velocidade e precisão dos processadores neurais.
Talvez um dia olharemos para as NPUs com a mesma granularidade que as CPUs ou GPUs, mas isso só pode acontecer depois que passarmos pelo ciclo atual de hype da IA. E mesmo assim, essa diferenciação de processadores não está definida em pedra. Também existe a ideia de GPNPUs, que são basicamente um combo de capacidades de GPU e NPU. Em breve, precisaremos separar as capacidades de PCs menores capazes de IA daquelas de PCs maiores que poderiam lidar com centenas ou até milhares de TOPS.
As NPUs existem há vários anos tanto em smartphones quanto em PCs
Os smartphones também estavam usando NPUs muito antes de a maioria das pessoas ou empresas se importar com isso. O Google falou sobre as NPUs e as capacidades de IA desde o Pixel 2. A Huawei centrada na China e a Asus estrearam as NPUs em telefones como o Mate 10 de 2017 e o Zenphone 5 de 2018. Ambas as empresas tentaram promover as capacidades de IA em ambos os dispositivos naquela época, embora os clientes e revisores estivessem muito mais céticos sobre suas capacidades do que hoje.
De fato, as NPUs de hoje são muito mais poderosas do que eram há seis ou oito anos, mas se você não prestou atenção, a capacidade neural da maioria desses dispositivos teria passado despercebida.
Os chips de computador já tinham processadores neurais há anos antes de 2023. Por exemplo, os CPUs da série M da Apple, os chips ARC proprietários da empresa, já suportavam capacidades neurais em 2020. O chip M1 tinha 11 TOPS, e o M2 e M3 tinham 15,8 e 19 TOPS, respectivamente. Foi apenas com o chip M4 dentro do novo iPad Pro 2024 que a Apple decidiu se gabar da velocidade de 38 TOPS de sua mais recente engine neural. E quais são as verdadeiras aplicações de IA do iPad Pro que realmente fazem uso dessa nova capacidade? Não muitas, para ser honesto. Talvez veremos mais em algumas semanas na WWDC 2024, mas teremos que esperar para ver.
A obsessão atual com as NPUs é parte hardware e parte hype
A ideia por trás da NPU é que ela deve ser capaz de tirar o fardo de rodar a IA no dispositivo da CPU ou GPU, permitindo que os usuários executem programas de IA, quer sejam geradores de arte de IA ou chatbots, sem diminuir a velocidade de seus PCs. O problema é que todos ainda estão procurando aquele aplicativo de IA verdadeiramente capaz de usar as capacidades de IA aumentadas.
O Gizmodo teve conversas com os principais fabricantes de chips ao longo do último ano, e uma coisa que continuamos ouvindo é que os fabricantes de hardware sentem que, pela primeira vez, superaram a demanda de software. Por muito tempo, era o oposto. Os fabricantes de software empurravam os limites do que está disponível em hardware de ponta do consumidor, forçando os fabricantes de chips a acompanharem.
Mas desde 2023, só vimos algumas aplicações marginais de IA capazes de rodar no dispositivo. A maioria das demonstrações das capacidades de IA dos chips da Qualcomm ou Intel geralmente envolve rodar o recurso de desfoque de fundo do Zoom. Ultimamente, vimos empresas fazendo benchmarks de suas NPUs com o modelo gerador de música de IA Riffusion em aplicativos existentes como o Audacity ou com legendas ao vivo no OBS Studio. Claro, você pode encontrar alguns aplicativos executando chatbots capazes de rodar no dispositivo, mas um LLM menos capaz, menos sutil, não parece o aplicativo matador que fará todo mundo correr para comprar o último smartphone novo ou “PC de IA”.
Em vez disso, estamos limitados a aplicativos relativamente simples com o Gemini Nano nos telefones Pixel, como resumos de texto e áudio. A menor versão de IA do Google está chegando ao Pixel 8 e Pixel 8a. Os recursos de IA da Samsung que antes eram exclusivos do Galaxy S24 já se espalharam para telefones mais antigos e em breve deverão chegar aos dispositivos vestíveis da empresa. Ainda não testamos a velocidade dessas capacidades de IA em dispositivos mais antigos, mas isso aponta para o fato de que dispositivos mais antigos desde 2021 já tinham muita capacidade de processamento neural.
A IA no dispositivo ainda é prejudicada pela falta de poder de processamento para produtos de consumidor final. Microsoft, OpenAI e Google precisam rodar grandes data centers equipados com centenas de GPUs avançadas da Nvidia, como a H100 (Microsoft e outros estão supostamente trabalhando em seus próprios chips de IA), para processar alguns dos LLMs mais avançados ou chatbots com modelos como Gemini Advanced ou GPT 4o. Isso não é barato em termos de dinheiro ou recursos como energia e água, mas é por isso que a maior parte da IA mais avançada que os consumidores podem pagar para executar está na nuvem. Ter a IA rodando no dispositivo beneficia os usuários e o meio ambiente. Se as empresas acharem que os consumidores exigem os modelos de IA mais recentes e avançados, o software continuará ultrapassando o que é possível em um dispositivo de consumidor final.