Há uma CPU. Há uma GPU. No último ano, todas as empresas de tecnologia têm falado sobre “NPUs”. Se você não conhecia os dois primeiros, provavelmente está confuso sobre o terceiro e por que a indústria de tecnologia está exaltando os benefícios de uma unidade de processamento neural. Como você deve ter suposto, tudo isso se deve ao ciclo contínuo de hype em torno da inteligência artificial. E ainda assim, as empresas de tecnologia têm sido bastante ruins em explicar o que essas NPUs fazem ou por que você deveria se importar.
Todo mundo quer uma fatia do bolo da IA. O Google mencionou “IA” mais de 120 vezes durante a conferência de desenvolvedores I/O deste mês, onde as possibilidades de novos aplicativos e assistentes com IA praticamente encantaram seus anfitriões. Durante sua recente conferência Build, a Microsoft estava toda entusiasmada com seus novos PCs Copilot+ baseados em ARM, usando o Qualcomm Snapdragon X Elite e X Plus. Qualquer CPU ainda oferecerá uma NPU com 45 TOPS. O que isso significa? Bem, os novos PCs devem ser capazes de suportar IA no dispositivo. No entanto, quando você pensa nisso, é exatamente o que a Microsoft e a Intel prometeram no final do ano passado com o chamado “PC de IA”.
Se você comprou um novo laptop com um chip Intel Core Ultra este ano com a promessa de IA no dispositivo, provavelmente não está muito feliz em ficar para trás. A Microsoft disse ao Gizmodo que apenas os PCs Copilot+ terão acesso a recursos baseados em IA, como o Recall “devido aos chips que os executam”.
No entanto, houve alguma controvérsia quando o conhecido vazador Albacore afirmou que poderia executar o Recall em outro PC baseado em ARM64 sem depender da NPU. Os novos laptops ainda não estão disponíveis, mas teremos que esperar para ver quanto pressão os novos recursos de IA vão exercer sobre os processadores neurais.
Mas se você realmente está curioso sobre o que está acontecendo com as NPUs e por que todo mundo, desde a Apple até a Intel e pequenas startups de PCs estão falando sobre elas, criamos um explicador para colocá-lo a par.
Explicando a NPU e ‘TOPS’
Primeiro, devemos oferecer às pessoas nos bastidores uma rápida visão das capacidades de computação de um PC comum. A CPU, ou “unidade central de processamento”, é—essencialmente—o “cérebro” do computador, processando a maior parte das tarefas do usuário. A GPU, ou “unidade de processamento gráfico”, é mais especializada em lidar com tarefas que exigem grandes quantidades de dados, como renderizar um objeto 3D ou jogar um videogame. GPUs podem ser uma unidade discreta dentro do PC, ou podem vir embutidas na própria CPU.
Dessa forma, a NPU está mais próxima da GPU em termos de sua natureza especializada, mas você não encontrará um processador neural separado fora da unidade central ou de processamento gráfico, pelo menos por agora. É um tipo de processador projetado para lidar com os cálculos matemáticos específicos dos algoritmos de aprendizado de máquina. Essas tarefas são processadas “em paralelo”, o que significa que ele dividirá as solicitações em tarefas menores e depois as processará simultaneamente. É especificamente projetado para lidar com as intensas demandas de redes neurais sem utilizar os processadores de outros sistemas.
O padrão para julgar a velocidade da NPU está em TOPS, ou “trilhões de operações por segundo”. Atualmente, é a única maneira pela qual as grandes empresas de tecnologia estão comparando sua capacidade de processamento neural entre si. Também é uma maneira incrivelmente simplista de comparar velocidades de processamento. CPUs e GPUs oferecem muitos pontos de comparação diferentes, desde o número e tipos de núcleos até velocidades de clock gerais ou teraflops, e mesmo assim isso não arranha a superfície das complicações envolvidas na arquitetura do chip. A Qualcomm explica que TOPS é apenas uma equação matemática rápida e suja que combina a velocidade e a precisão dos processadores neurais.
Talvez um dia olharemos para as NPUs com a mesma granularidade que as CPUs ou GPUs, mas isso pode acontecer apenas depois de sairmos do ciclo atual de hype em torno da IA. E mesmo assim, nenhuma dessa delimitação de processadores é definitiva. Existe também a ideia de GPNPUs, que são basicamente uma combinação de capacidades de GPU e NPU. Em breve, precisaremos dividir as capacidades de PCs menores com capacidade de IA com aquelas de maior porte que poderiam lidar com centenas ou mesmo milhares de TOPS.
As NPUs existem há vários anos tanto em telefones quanto em PCs
Os telefones também estavam usando NPUs muito antes da maioria das pessoas ou empresas se importarem. O Google falou sobre NPUs e capacidades de IA já no Pixel 2. As empresas chinesas Huawei e Asus estrearam NPUs em telefones como o Mate 10 de 2017 e o Zenphone 5 de 2018. Ambas as empresas tentaram promover as capacidades de IA em ambos os dispositivos naquela época, embora os clientes e revisores estivessem muito mais céticos sobre suas capacidades do que hoje.
Com efeito, as NPUs de hoje são muito mais poderosas do que eram há seis ou oito anos, mas se você não prestou atenção, a capacidade neuronal da maioria desses dispositivos teria passado despercebida.
Os chips de computador já incorporavam processadores neurais antes de 2023. Por exemplo, as CPUs da série M da Apple, os chips ARC proprietários da empresa, já suportavam capacidades neurais em 2020. O chip M1 tinha 11 TOPS, e o M2 e o M3 tinham 15,8 e 19 TOPS, respectivamente. Foi apenas com o chip M4 dentro do novo iPad Pro 2024 que a Apple decidiu se gabar da velocidade de 38 TOPS de sua mais recente engine neural. E quais aplicativos de IA do iPad Pro realmente fazem uso dessa nova capacidade? Não muitos, para ser honesto. Talvez vejamos mais em algumas semanas na WWDC 2024, mas teremos que esperar para ver.
A Obsessão Atual com as NPUs É Parte Hardware e Parte Hype
A ideia por trás da NPU é que ela deve ser capaz de tirar o fardo de executar IA no dispositivo fora da CPU ou GPU, permitindo aos usuários executar programas de IA, seja geradores de arte de IA ou chatbots, sem diminuir a velocidade de seus PCs. O problema é que ainda estamos todos procurando por aquele verdadeiro programa de IA que possa usar as capacidades de IA aumentadas.
O Gizmodo conversou com os principais fabricantes de chips ao longo do último ano, e a única coisa que continuamos ouvindo é que os fabricantes de hardware sentem que, pela primeira vez, ultrapassaram a demanda de software. Por muito tempo, era o oposto. Os desenvolvedores de software empurravam os limites do que está disponível em hardware de ponta do consumidor, forçando os fabricantes de chips a acompanharem o ritmo.
Mas desde 2023, só vimos algumas aplicações marginais de IA capazes de serem executadas no dispositivo. A maioria das demonstrações das capacidades de IA dos chips da Qualcomm ou Intel geralmente envolvem executar o recurso de desfoque de plano de fundo do Zoom. Recentemente, vimos empresas avaliando suas NPUs com o modelo gerador de música de IA Riffusion em aplicativos existentes como Audacity ou com legendas ao vivo no OBS Studio. Claro, você pode encontrar alguns aplicativos com chatbots capazes de serem executados no dispositivo, mas um LLM menos capaz e menos matizado não parece ser o aplicativo matador que fará todo mundo correr para comprar o mais recente smartphone ou “PC de IA”.
Em vez disso, estamos limitados a aplicativos relativamente simples com o Gemini Nano nos telefones Pixel, como resumos de texto e áudio. As funcionalidades de IA da Samsung, que antes eram exclusivas do Galaxy S24, já chegaram a telefones mais antigos e em breve chegarão aos wearables da empresa. Não avaliamos a velocidade dessas capacidades de IA em dispositivos mais antigos, mas isso aponta para a abundância de capacidade de processamento neural que dispositivos mais antigos tinham desde 2021.
A IA no dispositivo ainda é prejudicada pela falta de potência de processamento para produtos de consumo. A Microsoft, OpenAi e o Google precisam executar grandes data centers com centenas de GPUs avançadas da Nvidia, como a H100 (a Microsoft e outras estão supostamente trabalhando em seus próprios chips de IA), para processar alguns dos LLMs mais avançados ou chatbots com modelos como Gemini Advanced ou GPT 4o. Isso não é barato em termos de dinheiro ou de recursos como poder e água, mas é por isso que grande parte da IA mais avançada que os consumidores podem pagar está rodando na nuvem. Ter a IA rodando no dispositivo beneficia os usuários e o meio ambiente. Se as empresas acham que os consumidores exigem os mais recentes e melhores modelos de IA, o software continuará superando o que é possível em um dispositivo de consumidor.