El 2025 fue el año de los fallos globales en las plataformas de la nube de las grandes firmas tecnológicas

El año 2025 termina y a nivel global se constituye en la referencia de los grandes fallos de plataformas de infraestructura web y de servicios en la nube.

‌

‌
‌

‌

El registro de interrupciones significativas afecta a gigantes tecnológicos y proveedores de servicios clave para el funcionamiento diario de Internet.

Se identificaron al menos 16 incidentes mayores en los servicios de cloud computing de AWS, Azure de Microsoft, Google Cloud y Cloudflare.

La vulnerabilidad de la infraestructura global resulta evidente. Los fallos demuestran una alta dependencia a un grupo reducido de empresas tecnológicas. El riesgo es calificado como “sistémico”.

“Si toda la infraestructura depende de unos pocos proveedores y todo puede caerse en cualquier momento, ya sea por motivos malintencionados o simplemente por errores técnicos, es una situación extremadamente peligrosa”, dijo Harry Halpin, director ejecutivo del servicio de red privada virtual NymVPN, a The New York Times.

Las caídas resonaron por la afectación de servicios de todo tipo de compañías, desde los globales y reconocidos como Fortnite, Zoom y Canva hasta los sistemas de empresas de todo el mundo que utilizan las plataformas de los grandes proveedores tecnológicos.

Ocurre, además, cinco años después del gran vuelco hacia la nube que se produjo durante el 2020, cuando las organizaciones debieron migrar sus sistemas corporativos claves del modelo on premise (de software instalados y en redes privadas) a Software as a Service (SaaS), tras haberse resistido a dar el paso durante más de una década.

Más de 500 plataformas dejaron de funcionar por una falla en AWS. Amazon informó que el servicio se restableció tras varias horas. (Generada con IA/ChatGPT)

Implicaciones globales

La interrupción en los servicios de la nube de las grandes firmas paralizó plataformas de alto tráfico y servicios críticos, que dejaron de funcionar en varias ocasiones durante el año y alcanzaron a otras industrias donde las empresas utilizan servicios en la nube.

Las consecuencias económicas alcanzan cifras multimillonarias. Se estima que el evento de Azure del 29 de octubre anterior causó una pérdida de hasta $16.000 millones durante las ocho horas de inactividad.

Los costos de paralización en empresas de la lista Fortune 1000 se calcularon entre $5.600 y $9.000 por minuto. La caída de AWS del 20 de octubre generó pérdidas de $150.200 millones solo en el sector de comercio electrónico y SaaS.

Aparte de los incidentes de AWS, Azure, Google Cloud y Cloudflare, también ocurrieron otros fallos entre enero y junio de 2025 en diversos servicios en la nube. Se reportan los de Condunet (un ciberataque interrumpió pagos gubernamentales en EE. UU.), Asana (dos caídas por cambios de configuración), Jira de Atlassian (lentitud e inaccesibilidad), Slack (sobrecarga en sus bases de datos), Zoom (caída debido a un bloqueo de dominio por GoDaddy), SentinelOne (falla global en consolas debido a un error en rutas de red) e IBM Cloud (problemas de login en dos fechas distintas).

Los incidentes de 2025 dejaron lecciones importantes para la gestión de riesgos tecnológicos. Primero, resaltan la vulnerabilidad en dependencias invisibles y procesos de actualizaciones automatizadas. Segundo, demuestran que la concentración de servicios en unos pocos proveedores aumenta el nivel de riesgo para las operaciones críticas.

La principal recomendación para las empresas es diversificar sus plataformas y la adopción de arquitecturas multicloud (de múltiples proveedores) como estrategia de resiliencia operativa. También se recomienda mejorar las pruebas de manejo de errores en todos los procesos de actualización y la implementación de la computación de borde (edge computing).

El edge computing consiste en un modelo distribuido que acerca el procesamiento y almacenamiento de datos al lugar donde se generan (el “borde” de la red), en lugar de enviarlos a centros de datos centralizados lejanos.

Claoudfare, computación en la nube, cloud — Los servicios de Claoudfare tuvieron dos importantes fallos durante el 2025. (Reproducción EF) (Carlos Cordero/Carlos Cordero)

Recuento

Las principales plataformas de nube registraron incidentes con distintas causas y afectaciones. Cada fallo reveló un punto crítico en la arquitectura de los gigantes tecnológicos.

AWS (Amazon Web Services)

La caída más grave de AWS se produjo el 20 de octubre en la región US-EAST-1, en el norte de Virginia. La interrupción global duró entre 13 y 15 horas. Se vieron afectados 113 servicios de la plataforma por fallos en cascada o en secuencia.

La razón técnica se centró en un problema de resolución DNS en el endpoint de Amazon DynamoDB. Esto se desencadenó por una actualización defectuosa en su API.

El evento generó inconsistencias en el plano de control, agotamiento de recursos y fallos en el balanceo de carga y enrutamiento interno de información.

El incidente impactó a plataformas como Reddit, Snapchat, Signal, Fortnite, Ring, Pinterest, Duolingo y Lloyds Bank.

También resultaron afectados los servicios a organismos gubernamentales de hacienda en el Reino Unido.

Pero su alcance fue más allá, pues la plataforma de AWS concentra el 31% de la cuota de mercado de servicios en la nube.

Azure (Microsoft)

El principal incidente de Azure ocurrió el 29 de octubre, pues a lo largo del año hubo varios, con una interrupción global de ocho horas que afectó servicios de Microsoft 365 (en particular el Outlook y Office), Xbox Live, Azure AI, Microsoft Store, OneDrive, Copilot y Minecraft.

También afectó los servicios críticos dependientes de aerolíneas, hospitales, cadenas minoristas y pagos.

El fallo se originó por un cambio de configuración accidental en Azure Front Door, el cual generó latencias, fallos en resoluciones DNS y problemas en la resolución de dominios, bloqueos en accesos a portales, problemas de software y pérdida de capacidad en instancias kubernetes (que gestiona cargas de trabajo y servicios).

Microsoft reconoció que debido a que la falla se detectó de forma asíncrona, después de aproximadamente cinco minutos, la configuración superó las medidas de protección y se propagó a etapas posteriores.

Google Cloud

El incidente más disruptivo de Google Cloud en 2025 ocurrió el 12 de junio. El fallo duró más de dos horas y media. El evento afectó a más de 50 servicios, incluidos Drive, Maps, YouTube y Gemini.

La causa raíz fue una actualización automática inválida de cuotas en el sistema de gestión de APIs. Esta acción generó rechazos globales de solicitudes con errores denominados 503, el cual se refiere a que los servidores web no pueden procesar las solicitudes debido a que están demasiados ocupados.

Además, se produjeron caídas en Service Control por la falta de manejo de errores en políticas nulas. Service Control consiste en una serie de dispositivos que gestionan, coordinan, dirigen o regulan el funcionamiento de los sistemas y su objetivo principal es, precisamente, minimizar las posibilidades de errores.

Entre las víctimas se encuentran los servicios de Spotify y Discord.

Cloudflare

La empresa de infraestructura web y ciberseguridad experimentó dos fallos globales significativos a finales de 2025.

El primer evento ocurrió el 18 de noviembre, con una duración de tres a seis horas. La causa fue un bug (fallo en el código de un programa o sistema que provoca un comportamiento inesperado) en el módulo de gestión de bots (los software automatizados que ejecutan tareas repetitivas) durante una actualización de configuración.

Esto generó un archivo interno sobredimensionado que sobrecargó los proxies edge (puentes o enlaces entre sistemas), causando “accidentes” por permisos de base de datos defectuosos.

Entre los servicios afectados se encuentran los videojuegos Valorant, Fortnite, League of Legends o Epic Games Store.

El segundo incidente se registró el 5 de diciembre y duró cerca de 25 minutos. Este resultó de cambios de configuración para mitigar una vulnerabilidad, provocando sobrecarga durante mantenimiento y falta de manejo de errores.

Ambos eventos afectaron entre el 20% y el 28% del tráfico global por interrupciones de plataforma como X (Twitter), ChatGPT de OpenAI, Google Gemini, Spotify, Canva, Zoom, Claude, Perplexity y miles de servicios de comercio electrónico y fintechs.