Amazon es mucho más que una tienda digital, aunque sea su plataforma más popular. El verdadero corazón de este gigante informático es Amazon Web Services (AWS), un complejo de servicios presente en todo el mundo y que aporta soporte a más de 200 centros de datos globales, almacenamiento, bases de datos, computación, redes e inteligencia artificial. Esta mañana, sobre las nueve hora española, AWS ha detectado un fallo masivo que ha generado problemas en cadena para el acceso a servicios asociados de numerosas plataformas. La compañía ha dado por resuelto el incidente cuatro horas después, aunque la recuperación de todos los servicios ha sido paulatina.

Según confirmó la compañía y reflejó la web de seguimiento Downdetector, el “aumento de las tasas de error y las latencias [tiempo de respuesta a un comando]” se detectó a primeras horas de la mañana”. “Podemos confirmar un aumento de las tasas de error y las latencias para varios servicios de AWS en la región de la costa este de Estados Unidos”, ha alertado la empresa. Este problema también ha afectado a los centros con soporte de la compañía.

La compañía trabajó en “múltiples alternativas paralelas” para recuperar los sistemas afectados y recomendó a los clientes de los distintos servicios afectados que siguieran intentando la conexión a las plataformas que registraron errores. Dos horas y media después del apagón, el número de incidencias reportadas había bajado casi a la mitad y poco después se daba por resuelto, aunque la recuperación de servicios se ha producido paulatinamente.

“El problema subyacente (de DNS) se ha mitigado por completo y la mayoría de las operaciones del servicio de AWS se están realizando con normalidad ahora. Es posible que algunas solicitudes se limiten mientras trabajamos para lograr una resolución completa. Además, algunos servicios continúan trabajando a través de una acumulación de eventos como Cloudtrail y Lambda. Si bien la mayoría de las operaciones se recuperan, las solicitudes para lanzar nuevas instancias siguen experimentando mayores tasas de error. Continuamos trabajando para lograr una resolución completa”, ha advertido Amazon pasadas las 12.30 de la tarde de este lunes.

Origen

El origen de la interrupción del servicio se ha identificado en Amazon DynamoDB, un servicio de base de datos NoSQL (un sistema ideado para manejar grandes volúmenes de datos no estructurados y semi-estructurados) que proporciona un alto rendimiento, escalable y predecible.

DynamoDB se utiliza para aplicaciones de Internet y reduce las labores de gestión interna para los clientes del servicio, como administración de bases de datos, copias de seguridad, protección, la supervisión y otras.

Entre los servicios afectados estaban dispositivo vinculados directamente a la compañía, como el asistente por voz Alexa, la propia plataforma de tienda electrónica, y otras aplicaciones externas, como el popular traductor Duolingo, Canva, Roblox o la web de criptomonedas Coinbase. También la plataforma de inteligencia artificial (IA) Perplexity: “Se ha caído en este momento. La causa es un problema de AWS. Estamos trabajando para resolverlo”, ha advertido el director general de esta plataforma de IA Aravind Srinivas a través de X.

También se han visto afectadas populares webs de juegos, como Fortnite, y la aplicación de mensajería y comunicación Snapchat.

Según las estadísticas de la página Built With, más de 76,8 millones de webs utilizan los servicios de Amazon, de las que unas 200.000 se encuentran en España.

DynamoDB, el servicio donde se ha identificado el problema, según AWS, sirve a más de un millón de clientes y gestiona más de medio millón de solicitudes por segundo.

También se han visto afectadas empresas de transporte como Lyft, competencia de Uber, y Signal. Entre las principales empresas españolas que han registrado problemas o que tienen servicios asociados a AWS se encuentran las entidades financieras BBVA e ING Direct o compañías de telecomunicaciones como Movistar y Orange.

La compañía de venta de entradas Ticketmaster también ha reportado errores en la compra de pases para conciertos y eventos. “No se pueden comprar entradas de ningún concierto en estos momentos [a las 10.00 de la mañana]. Estamos monitorizando y esperamos quede solucionado a la mayor brevedad posible. Disculpad las molestias”, asegura en un comunicado Live Nation.

Reacciones

Más allá del problema técnico puntual, el especialista en informática Rimesh Patel, detecta la demostración de la vulnerabilidad del sistema. “Esta importante interrupción en línea subraya una cruda realidad: las operaciones comerciales asociadas con un proveedor crítico en una región pueden convertirse en una cascada de inestabilidad global. Lo que comenzó como una interrupción del servicio se ha extendido hacia afuera, comprometiendo potencialmente los sistemas clave al comienzo de la semana laboral, una ilustración de cómo la resiliencia de la cadena de suministro y la infraestructura debe estar en la mente de todas las organizaciones. Amazon ha comprometido todos los recursos para restaurar los servicios afectados, pero mientras tanto, la carga recae en otras organizaciones para movilizar respuestas rápidas, aislar los impactos y limitar la degradación del servicio siempre que sea posible”, explica Patel a Science Media Centre (SMS).

En la misma línea se ha pronunciado el profesor de la Universidad de Surrey, Alan Woodward, a la misma plataforma: “Lo que este episodio ha puesto de relieve es cuán interdependiente es nuestra infraestructura. Muchos servicios en línea dependen de terceros para su infraestructura física y esto demuestra que pueden ocurrir problemas, incluso en el más grande de esos proveedores externos. Los pequeños errores, a menudo causados por el hombre, pueden tener un impacto generalizado y significativo”.

A este análisis se ha sumadoo Patrick Burgess, del Instituto Chartered: “Esto demuestra cuán interconectados y dependientes se han vuelto nuestros servicios digitales cotidianos de un pequeño número de proveedores globales de nube. Desarrollar resiliencia y garantizar la diversidad en estos sistemas es esencial para mantener la confianza y la continuidad en nuestra economía digital.

