El día que AWS dejó sin servicio a cientos de compañías y millones de usuarios

La interrupción global de los servicios de Amazon Web Services (AWS) causó estragos en diversas plataformas y empresas este lunes 20 de octubre.

‌

‌
‌

‌

United Airlines comunicó que la interrupción global de AWS interrumpió el acceso a su aplicación y sitio web durante la noche, al tiempo que algunos sistemas internos se vieron afectados temporalmente.

“United implementó sistemas de respaldo para poner fin a la interrupción tecnológica y nuestros equipos están trabajando para que nuestros clientes puedan continuar su viaje”, indicó la aerolínea en un comunicado.

No fue la única compañía. Delta Airlines reportó también que experimentó algunos retrasos menores en sus vuelos la mañana de este lunes como resultado de la interrupción, pero que la compañía no prevé un impacto mayor para los clientes.

La afectación incluye los servicios de venta en línea de la misma Amazon, aplicaciones de redes sociales y de mensajería, servicios de pagos y transferencias en línea y de criptomonedas, medios de comunicación y gobierno, entre otros. Se originó en la denominada región US-EAST-1 de AWS, su centro de operaciones en Virginia del Norte, según la misma compañía.

Los especialistas reiteran que la caída refleja la vulnerabilidad y fragilidad de los servicios en Internet. Pero no se echan a morir. “La buena noticia es que este tipo de problema suele resolverse relativamente rápido”, dijo a CNN el experto en ciberseguridad de la firma británica BCS, Patrick Burgess.

Los servicios de AWS representan el 20% de los ingresos y el 60% de las utilidades de Amazon. (AFP/AFP)

No es la primera vez que se presentan problemas o “interrupciones a gran escala” en este mismo centro de datos y que afecta los servicios globales y en Estados Unidos de AWS.

En 2017, 2020 y 2021 se sufrieron caídas que afectaron los servicios a nivel global. La interrupción de finales de 2021 fue la más larga de AWS (cinco horas) y afectó servicios a aerolíneas, concesionarios de automóviles, aplicaciones de pago y servicios streaming de transmisión de video, entre otras.

Los servicios de AWS representan casi el 20% de las ventas de Amazon y alrededor del 60% de sus beneficios operativos. Ocupan el 37% del mercado de computación en la nube, según la firma de investigación de mercados tecnológicos Gartner.

Tampoco son los únicos fallos ocurridos en la industria. En julio de 2024, un fallo de software durante una actualización al sistema operativo Windows de Microsoft, realizada por la empresa estadounidense de ciberseguridad CrowdStrike, causó problemas en diversos sectores a nivel mundial.

Las aerolíneas se vieron obligadas a cancelar vuelos, las interrupciones hospitalarias impidieron la atención de citas y empresas de todo el mundo quedaron sin operación por dificultades en el acceso a sus plataformas internas.

El problema costó a las empresas de la lista Fortune 500 más de $5.000 millones en pérdidas directas.

LEA MÁS: 2020: Sistema de facturación electrónica del Ministerio de Hacienda con problemas para validar documentos debido a interrupción en la plataforma de Amazon

LEA MÁS: 2021: AWS vuelve a sufrir problemas en Virginia del Norte y afecta facturación electrónica y certificado de vacunación con QR

LEA MÁS: CrowdStrike, desconocida en la opinión pública pero pionera en ciberseguridad remota

¿Qué ocurrió?

Los problemas de AWS comenzaron el pasado domingo 19 de octubre entre las 11:49 p.m. y las 2:24 a.m. en la madrugada del lunes 20 de octubre, horas del este, de acuerdo con las actualizaciones de estado que comunicó la propia AWS a sus clientes.

Ese momento de casi tres horas fue el de mayores tasas de error y latencias para los servicios de AWS, causando que los servicios o las funciones que dependen de ese centro experimentaran problemas.

A las 12:26 a. m. del 20 de octubre, la compañía identificó el desencadenante del evento: problemas de resolución del sistema de nombres de dominio (DNS, por sus siglas en inglés, y que traduce los nombres de los sitios web a direcciones web) para las interfaces de programación de aplicaciones de DynamoDB, una base de datos de AWS.

El sitio web especializado Wired indicó que no hay indicios de que los problemas de resolución de DNS fueran provocados por un hackeo tipo secuestro de DNS.

La situación habría sido resuelta, según AWS, a las 2:24 a.m. A partir de ese momento los servicios comenzaron a recuperarse.

Sin embargo, se presentó después una deficiencia en otro sistema interno de Elastic Compute Cloud (EC2), un equipo virtual que permite a los clientes crear aplicaciones basadas en la nube y que depende de DynamoDB.

También se vieron afectadas las comprobaciones de estado de Network Load Balancer (diseñado para gestionar millones de solicitudes por segundo con una latencia ultrabaja, lo que lo hace ideal para aplicaciones en tiempo real).

Esto provocó problemas de conectividad de red en varios servicios en línea de AWS como Lambda, DynamoDB y CloudWatch.

A media mañana la firma había recuperado algunas operaciones, pero como parte de esa labor realizó una “limitación temporal” en el servicio EC2, mientras trabajaba en paralelo para resolver los problemas de conectividad de red.

“A las 3:01 p. m., todos los servicios de AWS volvieron a funcionar con normalidad. Algunos servicios, como AWS Config, Redshift y Connect, siguen teniendo una acumulación de mensajes que finalizarán de procesar en las próximas horas”, reportó AWS a sus clientes.

¿Cómo conectar Alexa a los datos del celular? Le explicamos | Echo Dot | Amazon — El servicio de Alexa también sufrió interrupciones el pasado lunes 20 de octubre durante la mañana. (Shutterstock)

Afectadas

Los problemas de AWS afectaron servicios a nivel de EE. UU. y a nivel global.

The Wall Street Journal informó que la interrupción afectó a 142 productos de AWS, incluyendo la tienda en línea, las cámaras de timbre Ring y su asistente inteligente Alexa, que sufrieron interrupciones a lo largo de la mañana del lunes 20 de octubre.

También afectó a aplicaciones como WhatsApp y Facebook de Meta, al ChatGPT de OpenAI, el servicio de pagos Venmo de PayPal, el servicio de mensajes corporativos Slack y varios sitios web del gobierno británico (incluyendo los servicios tributarios en línea).

Otros afectados fueron las plataformas de criptomonedas Coinbase, videollamadas Zoom, idiomas Duolingo, servicios web de Epic Games, el juego en línea Fortnite, el servicio streaming Hulu, el sitio web del Journal y los juegos de The New York Times. La lista incluye a Snapchat y McDonald’s.

CNN también reportó que fueron afectados sitios web y aplicaciones “de algunos de los principales bancos”.

En Costa Rica no se reportan caídas de servicios en línea que utilizan la infraestructura de AWS, aunque las empresas locales que utilizan esa plataforma advirtieron sobre posibles interrupciones durante el lunes.

“La interrupción de AWS es un problema clásico de disponibilidad. Debemos considerarlo más como una falla de integridad de los datos”, afirmó Davi Ottenheimer, vicepresidente de la firma Inrupt, una empresa de infraestructura de datos.

Los expertos destacaron que la computación en la nube de firmas como AWS, Microsoft Azure y Google Cloud Services mejoró de muchas maneras la ciberseguridad y la estabilidad de los servicios informáticos, al crear una base de medidas de seguridad e imponer mejores prácticas para todos los clientes.

La estandarización, sin embargo, conlleva grandes desventajas ya que las plataformas se convierten en un punto único de fallo para amplios sectores de servicios críticos.

Los expertos advirtieron sobre los riesgos de que la infraestructura de un país y de las compañías dependa de unos pocos proveedores o que no se cuente con la redundancia y servicios espejo y réplica.

“Cualquier cosa puede fallar en cualquier momento, ya sea por razones maliciosas o simplemente por errores técnicos”, dijo Harry Halpin, director ejecutivo de NymVPN, un proveedor de servicios virtuales de conexión.

Down Detector, un sitio web que rastrea interrupciones en línea, informó más de ocho millones de reportes relacionados con AWS hasta las 9:45 a.m. hora del este. Más de un millón provenían de EE. UU. y ocurrieron en las primeras dos horas de la interrupción.

Ookla, por su parte, informó de más de un millón de reportes de problemas desde EE. UU. solo en las dos primeras horas de la interrupción y más de 400.000 desde el Reino Unido en ese mismo período.

El costo total de la interrupción podría ascender a cientos de miles de millones de dólares debido a la pérdida de productividad, según Mehdi Daoudi, CEO de Catchpoint, que monitorea el rendimiento en Internet. Todavía no hay cifras oficiales.

El día que AWS dejó sin servicio a cientos de compañías y millones de usuarios

Lo que la enorme interrupción de AWS revela sobre Internet: caída interrumpe servicios globales y expone la fragilidad de la computación en la nube; pero la recuperación también fue rápida

‌

¿Qué ocurrió?

Afectadas

Carlos Cordero Pérez