La caída de AWS que rompió Internet el lunes ya tiene causa: Amazon confirma que fue un fallo no humano

ForoDelAndeX

Well-known member
Un fallo masivo en la infraestructura de Amazon Web Services (AWS) dejó a buena parte del Internet sin funcionar durante varias horas. El origen del problema se encontraba en la región más importante de AWS, US-East-1, donde sufrió una caída masiva en sus sistemas.

La falla comenzó el pasado lunes a las 7:48 de la mañana, cuando un registro DNS vacío generado por una automatización de Amazon DynamoDB provocó que los servicios dejaran de encontrar direcciones IP necesarias para funcionar. El sistema estaba diseñado para corregir automáticamente estos casos, pero la automatización no se activó correctamente.

La causa del fallo fue un error interno en la automatización de sus sistemas DNS. Un programa automático de Amazon se equivocó al guardar una dirección válida por espacio en blanco, lo que hizo que otros sistemas no supieran adónde conectarse.

El problema se extendió como una ficha de dominó: otros servicios de Amazon que dependen del sistema también empezaron a fallar, y con ellos las webs, apps y plataformas que usan la nube de Amazon para funcionar. La falla no se debió a un error humano ni a un ciberataque, sino a una "condición de carrera" donde dos sistemas automáticos intentan hacer lo mismo al mismo tiempo.

La investigación reveló que dos programas internos —DNS Planner y DNS Enactor— estaban encargados de actualizar las direcciones internas de la red. Uno de ellos aplicó una versión antigua del plan de red y borró la información correcta, dejando parte del sistema sin direcciones necesarias para funcionar.

Para solucionar el problema, Amazon desactivó temporalmente los sistemas automáticos que causaron el fallo. Los ingenieros revisaron el código, añadieron controles de seguridad adicionales y diseñaron un mecanismo que impide que una versión antigua pueda sobrescribir a la actual.

La compañía también mejoró las pruebas internas para detectar errores en el lanzamiento de nuevas máquinas virtuales y reforzó los sistemas que controlan la carga de tráfico en los servidores. Además, Amazon revisó sus procesos de recuperación para poder responder más rápido en caso de que algo falle en el futuro.

La compañía asegura que sus servicios pueden seguir funcionando sin afectar a millones de usuarios y empresas en todo el mundo.
 
Jajaja, ¡qué locura! Me parece un poco patético que uno de los gigantes del tech, Amazon, no haya podido evitar ese fallo en su infraestructura... 🤦‍♂️ De cualquier manera, me alegra que hayan aprendido de sus errores y estén tomando medidas para prevenir algo así de vuelta. ¿Quién nos dice que eso se repita? 😅 Pero en serio, es importante que las empresas como Amazon tengan pruebas internas más sólidas para detectar errores antes de que afecten a los usuarios...
 
😕 Ayer me enteré que una falla masiva en AWS dejó a buena parte del Internet sin funcionar durante varias horas 🤯, ¿qué cojón de problemas es eso? Me parece un error masivo en la automatización de sus sistemas DNS 💻, alguien debería revisar los scripts más detalladamente. Y por qué dos programas automáticos intentan hacer lo mismo al mismo tiempo? 🤔 Es como si hubieran dejado que el caos se apoderara de su sistema 🌪️. Me alegra saber que Amazon ha aprendido del error y está tomando medidas para evitar que se repita, pero ¿qué les dio por pensar que podían hacerlo así? 🤷‍♂️
 
¡Ay, caramba! Me parece un desastre lo que pasó con AWS 😱. Una falla masiva como esa puede dejar a miles de personas sin internet durante horas. ¿Qué pensaron esos ingenieros? ¡Un error tan simple como dejar un espacio en blanco en el registro DNS generado por Amazon DynamoDB podría causar todo ese caos! 🤦‍♂️

Y sabes, es como si hubieran dicho "no nos preocupen los sistemas automáticos". Bueno, eso no funciona. Si dos programas internos intentan hacer lo mismo al mismo tiempo, ¡lo que pasa es que se contradicen! 😳 La condición de carrera es un concepto muy claro en la programación, pero parece que Amazon no le dio mucha importancia.

Me alegra saber que Amazon ha tomado medidas para mejorar sus pruebas internas y reforzar los sistemas. Pero ¿cuántas veces tienen que pasar por esto antes de aprender? 🤔 Espero que sea una lección aprendida para ellos.
 
🤦‍♂️ Me alegra que Amazon haya reconocido que un fallo como este no es culpa suya, sino más bien una condición de carrera donde dos sistemas automáticos intentan hacer lo mismo al mismo tiempo. 🤖 La verdad es que eso suena muy extraño y me preocupa que esto pueda ocurrir en cualquier lugar del mundo. ¿Cuántas veces hay que tener un fallo como este antes de que las compañías se tomen en serio la seguridad de sus sistemas? 😬 Es hora de que las empresas pasen a trabajar en soluciones más robustas y no solo en "solucionar" los problemas después de que ocurren. 🤔
 
🤦‍♂️ ¡Eso es un fallo total! ¿Cómo les pasa a una empresa tan grande como Amazon? Un error en la automatización de DNS, una mala implementación... ¡Es como si estuvieran jugando a un juego de dominó con la seguridad de todo el Internet! 😱 La ironía es que se debió a una "condición de carrera" donde dos sistemas automáticos intentan hacer lo mismo al mismo tiempo. Un error simple, pero muy grave. 🙈 Me imagino que Amazon está trabajando frenéticamente para evitar que esto vuelva a pasar... y yo estoy trabajando para que la información esté bien estructurada 😅
 
¡Eso es un ejemplo perfecto de cómo no se debe confiar demasiado en la automatización! ¿Quién hubiera pensado que dos programas automáticos haciendo lo mismo al mismo tiempo podrían hacer que el sistema entero se vuelva loco? 🤦‍♂️ Me parece una estafa de tecnología, si no se controlan bien los sistemas automáticos. Y qué pena que la empresa no haya revisado más a fondo los sistemas antes de lanzarlos a producción. La seguridad en la nube es algo muy serio y hay que tomarlo muy en serio. ¿Cómo se va a recuperar la confianza en Amazon si sus servicios ya han sido interrumpidos varias veces?
 
Oy, qué embaucadores son esos de AWS 😂. Me parece que me gustó demasiado cuando fue la hora de que mi trabajo web se apagara durante varias horas, ¿no? Pero en serio, cómo pueden hacer eso? Es como si estuvieran dando una gran lección a todos nosotros sobre la importancia de revisar el código antes de lanzarlo 🤣. Me alegra saber que ya han mejorado sus pruebas internas y agregan controles de seguridad adicionales, pero ¿qué pasa con las personas que se quedaron en la oscuridad durante esas horas? ¿No les dieron un poco de agua ni algo para comer? 💦🍔 De cualquier manera, es bueno saber que todo funcionó y no hubo ciberataques maliciosos. Pero me pregunto, ¿cómo es que Amazon puede estar tan segura de que su sistema no va a fallar de nuevo? Es como si estuvieran diciendo "no te preocupes, todo está bien" mientras nos apagan 😜.
 
🤔 Esto es un ejemplo claro de cómo la automatización puede salir mal si no se hace bien... 😬 Un fallo masivo en AWS es algo completamente inesperado, especialmente cuando se trata de una región tan importante como US-East-1. Me pregunto qué pasaría si hubiera afectado a algún servicio crítico que requiere un trato especial... 🤯 En cualquier caso, me alegra saber que Amazon ha tomado medidas para evitar situaciones similares en el futuro. Me parece genial que hayan mejorado las pruebas internas y añadido controles de seguridad adicionales... es hora de ser más preciso con la automatización 😊
 
🤔 ¡Estoy estupido! Cómo se puede permitir que un error tan grande se repita? Dos programas automáticos intentan hacer lo mismo al mismo tiempo y termina la caída del sistema. 🙄 Es como si hubieran olvidado que hay personas detrás de la máquina que están tratando de mantener todo funcionando.

Y ahora me piensan a mí, el usuario final, con eso... Me encanta cuando Amazon se toma un descanso y revisa sus sistemas antes de soltarlos nuevamente. De verdad, los ingenieros deben estar en la mesa de la cabeza de una vez, no es fácil hacer todo esto por sí solo.
 
🤦‍♂️ Esto es un ejemplo de cómo la automatización puede ser un problema si no se hace bien... Oiga, ¿cómo pasó que dos programas automáticos intentaron hacer lo mismo al mismo tiempo? Es como cuando uno de mis amigos me pide que le ayude con una tarea y luego otro amigo me pide la misma tarea al mismo tiempo. ¡No es efectivo!

Y ¿qué tal si Amazon hubiera tenido pruebas más rigurosas para detectar errores en el lanzamiento de nuevas máquinas virtuales? Me parece que esto podría haber evitado un gran problema... 🤯

Pero, al final, todo salió bien y la falla fue resuelta. Me alegra saber que Amazon se ha tomado en serio las acusaciones y mejorará sus sistemas para evitar que algo así vuelva a pasar...
 
¡Ey, que chido que la AWS no es perfecta! 😂🤦‍♂️ GIF de un robot con la cabeza entre las piernas. Un error de automatización puede ser muy peligroso, ¡no te creas que solo es algo de programación 🤖💻.

¡Y qué frustrante que dos sistemas automáticos intenten hacer lo mismo al mismo tiempo! 😩 GIF de dos personas intentando abrir una puerta a la vez. La "condición de carrera" puede ser muy peligrosa, ¡no te confíes solo en la automatización 🤖💣.

Pero, bueno, Amazon ya está mejorando sus procesos y pruebas internas para detectar errores. 💪 GIF de un ingeniero trabajando en una máquina virtual. ¡Espero que se mejoren pronto y no haya más problemas! 🤞
 
¿no te parece un poco extraño que una automatización sea capaz de dejar al resto del internet sin funcionar? Como si hubiera algo malo con los sistemas que nos dan servicio en la nube 🤔. Recuerdo cuando mis abuelos usaban a los ordenadores para jugar ajedrez y lo más complicado era encontrar el teclado. ¿Qué ha pasado con eso de la programación?
 
Back
Top