Un point de défaillance unique a déclenché la panne d’Amazon affectant des millions de personnes



À son tour, le retard dans la propagation de l’état du réseau s’est répercuté sur un équilibreur de charge réseau sur lequel les services AWS s’appuient pour leur stabilité. En conséquence, les clients AWS ont rencontré des erreurs de connexion depuis la région US-East-1. Les fonctions réseau AWS affectées comprenaient la création et la modification de clusters Redshift, les invocations Lambda et les lancements de tâches Fargate tels que les flux de travail gérés pour Apache Airflow, les opérations du cycle de vie Outposts et le centre de support AWS.

Pour le moment, Amazon a désactivé le planificateur DNS DynamoDB et l’automatisation DNS Enactor dans le monde entier pendant qu’il s’efforce de corriger la condition de concurrence critique et d’ajouter des protections pour empêcher l’application de plans DNS incorrects. Les ingénieurs apportent également des modifications à EC2 et à son équilibreur de charge réseau.

Un récit édifiant

Ookla a souligné un facteur contributif non mentionné par Amazon : une concentration de clients qui acheminent leur connectivité via le point de terminaison US-East-1 et une incapacité à acheminer autour de la région. Ookla a expliqué :

Le US‑EAST‑1 concerné est le hub d’AWS le plus ancien et le plus utilisé. La concentration régionale signifie que même les applications mondiales y ancrent souvent les flux d’identité, d’état ou de métadonnées. Lorsqu’une dépendance régionale échoue, comme ce fut le cas dans cet événement, les impacts se propagent à l’échelle mondiale car de nombreuses piles « mondiales » traversent la Virginie à un moment donné.

Les applications modernes enchaînent les services gérés tels que le stockage, les files d’attente et les fonctions sans serveur. Si le DNS ne peut pas résoudre de manière fiable un point de terminaison critique (par exemple, l’API DynamoDB impliquée ici), les erreurs se répercutent sur les API en amont et provoquent des échecs visibles dans les applications que les utilisateurs n’associent pas à AWS. C’est précisément ce que Downdetector a enregistré sur Snapchat, Roblox, Signal, Ring, HMRC et autres.

L’événement sert de mise en garde pour tous les services cloud : il est plus important que de prévenir les situations de concurrence critique et les bugs similaires d’éliminer les points de défaillance uniques dans la conception du réseau.

« La voie à suivre », a déclaré Ookla, « n’est pas un échec nul mais un échec contenu, obtenu grâce à des conceptions multirégionales, à la diversité des dépendances et à une préparation disciplinée aux incidents, avec une surveillance réglementaire qui tend à traiter le cloud comme un élément systémique de la résilience nationale et économique. »