A Nova Coleção de Calçados da Nike

Uma interrupção maciça de nuvem que se originou na região chave US-Leste-1 da Amazon Web Services, seu hub em Virginia do Norte, perto do Capitólio dos EUA, causou interrupções generalizadas de sites e plataformas em todo o mundo na manhã de segunda-feira. A principal plataforma de comércio eletrônico da Amazon e outras propriedades, incluindo campainhas de porta Ring e a assistente inteligente Alexa, sofreram interrupções e quedas ao longo da manhã, assim como a plataforma de comunicação Meta WhatsApp, o ChatGPT da OpenAI, a plataforma de pagamentos Venmo da PayPal, vários serviços web da Epic Games, vários sites do governo britânico, entre outros.

As interrupções se originaram das interfaces de programação de aplicativos do banco de dados DynamoDB da Amazon em US-Leste-1, e a AWS afirmou em atualizações de status que o problema estava especificamente relacionado a problemas de resolução de DNS. O DNS é um serviço fundamental da internet que funciona essencialmente como uma consulta automática da lista telefônica para traduzir URLs da web como www.wired.com em endereços IP de servidor numéricos para que os navegadores mostrem aos usuários o conteúdo correto. Problemas de resolução de DNS ocorrem quando os servidores de DNS não estão conectando esses pontos com precisão e, para manter a analogia da lista telefônica, estão fornecendo os números errados para um determinado nome, ou vice-versa.

Com base em nossa investigação, o problema parece estar relacionado à resolução de DNS do endpoint da API DynamoDB em US-Leste-1,” a AWS escreveu em atualizações de status na segunda-feira. Pouco depois, a empresa acrescentou: “Se você ainda está tendo problemas para resolver os endpoints de serviço DynamoDB em US-Leste-1, recomendamos limpar as caches do DNS.”

Um porta-voz da AWS não respondeu imediatamente quando perguntado sobre os detalhes da natureza da falha. Problemas de resolução de DNS podem ser maliciosos – conhecidos como sequestro de DNS – mas não há indicação de que as interrupções da AWS na segunda-feira foram nefastas.

“Quando o sistema não pôde resolver corretamente a qual servidor se conectar, falhas em cascata derrubaram serviços em toda a internet”, diz Davi Ottenheimer, um gerente de operações de segurança e conformidade de longa data e vice-presidente da empresa de infraestrutura de dados Inrupt. “A interrupção da AWS de hoje é um problema clássico de disponibilidade, e precisamos começar a vê-la mais como um problema de integridade de dados.”

Os problemas começaram por volta das 3h. Às 5h22, a AWS aplicou “mitigações iniciais” que começaram a surtir efeito. Às 6h35, a Amazon disse que resolveu totalmente os problemas técnicos subjacentes, mas que “alguns serviços terão um backlog de trabalho para resolver, o que pode levar tempo adicional para ser totalmente processado.”

A AWS sofreu outras interrupções em grande escala, incluindo um incidente importante em 2023. A dependência de serviços centralizados na nuvem de gigantes como AWS, Microsoft Azure e Google Cloud Services, de muitas maneiras, melhorou a cibersegurança e a estabilidade em todo o mundo, criando uma linha de base de proteções e práticas recomendadas para todos os clientes. Mas essa padronização tem grandes desvantagens, pois as plataformas se tornam um único ponto de falha para grandes partes de serviços críticos.

“As falhas cada vez mais se rastreiam até a integridade”, diz Ottenheimer. “Dados corrompidos, validação falida ou, neste caso, resolução de nomes quebrada que envenenou todas as dependências downstream. Até entendermos e protegermos melhor a integridade, nosso foco total na disponibilidade é uma ilusão.”