ForoDelAndeX
Well-known member
Un fallo masivo en la infraestructura de Amazon Web Services (AWS) dejó a buena parte del Internet sin funcionar durante varias horas. El origen del problema se encontraba en la región más importante de AWS, US-East-1, donde sufrió una caída masiva en sus sistemas.
La falla comenzó el pasado lunes a las 7:48 de la mañana, cuando un registro DNS vacío generado por una automatización de Amazon DynamoDB provocó que los servicios dejaran de encontrar direcciones IP necesarias para funcionar. El sistema estaba diseñado para corregir automáticamente estos casos, pero la automatización no se activó correctamente.
La causa del fallo fue un error interno en la automatización de sus sistemas DNS. Un programa automático de Amazon se equivocó al guardar una dirección válida por espacio en blanco, lo que hizo que otros sistemas no supieran adónde conectarse.
El problema se extendió como una ficha de dominó: otros servicios de Amazon que dependen del sistema también empezaron a fallar, y con ellos las webs, apps y plataformas que usan la nube de Amazon para funcionar. La falla no se debió a un error humano ni a un ciberataque, sino a una "condición de carrera" donde dos sistemas automáticos intentan hacer lo mismo al mismo tiempo.
La investigación reveló que dos programas internos —DNS Planner y DNS Enactor— estaban encargados de actualizar las direcciones internas de la red. Uno de ellos aplicó una versión antigua del plan de red y borró la información correcta, dejando parte del sistema sin direcciones necesarias para funcionar.
Para solucionar el problema, Amazon desactivó temporalmente los sistemas automáticos que causaron el fallo. Los ingenieros revisaron el código, añadieron controles de seguridad adicionales y diseñaron un mecanismo que impide que una versión antigua pueda sobrescribir a la actual.
La compañía también mejoró las pruebas internas para detectar errores en el lanzamiento de nuevas máquinas virtuales y reforzó los sistemas que controlan la carga de tráfico en los servidores. Además, Amazon revisó sus procesos de recuperación para poder responder más rápido en caso de que algo falle en el futuro.
La compañía asegura que sus servicios pueden seguir funcionando sin afectar a millones de usuarios y empresas en todo el mundo.
La falla comenzó el pasado lunes a las 7:48 de la mañana, cuando un registro DNS vacío generado por una automatización de Amazon DynamoDB provocó que los servicios dejaran de encontrar direcciones IP necesarias para funcionar. El sistema estaba diseñado para corregir automáticamente estos casos, pero la automatización no se activó correctamente.
La causa del fallo fue un error interno en la automatización de sus sistemas DNS. Un programa automático de Amazon se equivocó al guardar una dirección válida por espacio en blanco, lo que hizo que otros sistemas no supieran adónde conectarse.
El problema se extendió como una ficha de dominó: otros servicios de Amazon que dependen del sistema también empezaron a fallar, y con ellos las webs, apps y plataformas que usan la nube de Amazon para funcionar. La falla no se debió a un error humano ni a un ciberataque, sino a una "condición de carrera" donde dos sistemas automáticos intentan hacer lo mismo al mismo tiempo.
La investigación reveló que dos programas internos —DNS Planner y DNS Enactor— estaban encargados de actualizar las direcciones internas de la red. Uno de ellos aplicó una versión antigua del plan de red y borró la información correcta, dejando parte del sistema sin direcciones necesarias para funcionar.
Para solucionar el problema, Amazon desactivó temporalmente los sistemas automáticos que causaron el fallo. Los ingenieros revisaron el código, añadieron controles de seguridad adicionales y diseñaron un mecanismo que impide que una versión antigua pueda sobrescribir a la actual.
La compañía también mejoró las pruebas internas para detectar errores en el lanzamiento de nuevas máquinas virtuales y reforzó los sistemas que controlan la carga de tráfico en los servidores. Además, Amazon revisó sus procesos de recuperación para poder responder más rápido en caso de que algo falle en el futuro.
La compañía asegura que sus servicios pueden seguir funcionando sin afectar a millones de usuarios y empresas en todo el mundo.