sábado, 14 de junio de 2008

Resolvers

Ayer aproximadamente a las 3 de la tarde los Resolvers de The Planet comenzaron a fallar, ya que aún no está resuelto del todo el problema eléctrico que ha causado todos estos problemas aunque ya estamos en las etapas finales.
Los resolvers son bases de datos de DNS para servidores y al fallar dos de ellos los dominios de correo de algunos clientes se vieron afectados.

Para resolver este problema hubo que contratar servidores externos y ya estan activados y funcionando.

Gracias por su paciencia en este problema que enfrentamos. Esto nos esta sirviendo para conocer nuestros puntos débiles y aplicar soluciones para evitarlos en el futuro.

Estaremos lanzando un servicio corporativo de alto nivel muy pronto y ofreceremos crédito y descuentos a aquellos clientes que quisieran cambiarse a este servicio. Pero primero lo primero y es solucionar todos estos problemas.

Gracias por su atención.

viernes, 6 de junio de 2008

Junio 6 – 10:10am CDT

El generador temporal del piso 1 ha fallado. Hemos cambiado al generador de respaldo que habíamos traido. Los sistemas de aire acondicionado y los PDU's han sido restaurados de energía.
Los servidores no deben tardar en ponerse en línea tambien, los tendremos informados.

Junio 6 – 10:05am CDT

Hemos perdido conectividad en H1. Estamos confirmando la perdida de energía.
La infraestructura de red estuvo fuera de linea pero esta restaurada. El piso 1 de nuevo perdió la energía. Tan pronto tengamos un diagnóstico les brindaremos mas información.

martes, 3 de junio de 2008

Junio 3 – 5:37pm CDT

Pruebas sobre el generador de respaldo fueron extremadamente buenas y mas rápidas de lo esperado. Estamos empezando a montar a los clientes en linea uno por una.

Junio 3 – 3:16pm CDT

El nuevo generador para H1 ha llegado a las instalaciones. Durante la siguiente hora estaremos bombeando el combustible del generador anterior al nuevo y haciendole pruebas al nuevo generador. Mas noticias seran publicadas cuando el test este completo.

Junio 3 – 1:27pm CDT

Reparar los interruptores defectuosos en el generador de energia de H1 no fue posible. hemos localizado un segundo generador que esta siendo transportado a las instalaciones. Lo esperamos esta tarde y entonces daremos informacion adicional respecto al nuevo generador en ese momento.

Junio 3 – 9:39am CDT

Seguimos trabajando para reparar las fallas en los interruptores del generador y restaurar la energía a H1 Piso 1 tan pronto como sea posible. Pronto informaremos también sobre los DNS's

En las noticias.

No hay reportes aun por parte de The Planet sobre la situación actual de los transformadores, tan pronto tengamos noticias les informaremos.

Junio 3 – 6:38am CDT

Al rededor de las 2:20 AM, el generador de respaldo que habia sio usado para brindar corrientee al piso 1 experimento una falla resultando en la perdida de conectividad del piso 1.

Inmediatamente nuestro personal comenzó a investigar para levantar los CRAC's (Computer Room Air Conditioner ) y PDU's (Power Distribution Units ) para el piso 1. El staff probó satisfactoriamente el generador de 2megawatts win carga y comenzaron a reconectar los CRAC y PDU.

Mientras se trabajaba en esto los interruptores fallaron en su electrónica interna. Este generador viene especificado para soportar mas voltaje que el requerido para el piso 1 y el generador es totalmente funcional, pero el sistema de interruptores fallo y debe ser remplazado para garantizar una distribucion estable de energía. Estamos localizando un generador de respaldo y evaluamos el tiempo necesario para reparar los interruptores del generador actual para poder regresar los servicios tan pronto sea posible.

Junio 3 – 3:33am CDT

Los Routers del H1 Piso 1 han sido afectados por los problemas de los generadores. Aún cuando los servidores de los clientes puedan estar encendidos, esto no los hace accesibles hasta que los routers hayan sido restaurados de energía.

Junio 3 – 2:25am CDT

Debido a una situacion con uno de los generadores de respaldo, hemos notado una distribución inconsistente a los CRAC's (Aire acondicionado) y PDU (Unidades de distribución de energía). Debido a que estos componentes son decisivos para los racks, algún tiempo fuera de línea se espera. Tenemos a nuestros equipos de operaciones revisando los generadores, CRACs, PDUs y racks para restaurar la conectividad.

lunes, 2 de junio de 2008

Junio 2 – 4:46pm CDT

Los servidores de Zona Digital han sido levantados, comenzamos a tener señal y las paginas estan de nuevo en línea. Comenzamos la evaluacion de posibles daños dentro del servidor.
Tal vez es necesario que reiniciemos el servidor algunas veces. Tan pronto estemos seguros de que todo está en perfecto estado, liberaremos el servidor completamente.

Los sistemas de email estan funcionando y en el transucrso de la noche todos los correos rebotados durante el fin de semana comenzaran a llegar.

Tan pronto este todo en orden seguiremos cerca de The Planet para los eventos del proximo fín de semana, en donde se instalará el sistema permanente de energía.

También tomaremos medidas para que esto no vuelva a afectar a nuestros clientes en esta proporción. Les mantendremos informados.

Ultimos Reportes

Junio 2 – 4:09pm CDT
Los servidores comienzan a estar en linea ahora. Lo vamos haciendo en un sistema rack-por-rack y revisando cada servidor que necesite soporte técnico.

Junio 2 – 2:56pm CDT
La electricidad en el Piso 1 ha sido restaurada. Comenzaremos a leventar los servidores de los clientes en grupos.

Junio 2 – 2:06pm CDT
Estamos trabajando en proveerle energía para los tests iniciales en H1DC piso 1. Se espera que las pruebas comiencen en la siguiente hora. Los equipos estan trabajando bajo una linea de tiempo mas detallada. Esperamos tener un comunicado de nuestra area administrativa pronto.

Junio 2 – 11:03am CDT

Técnicos Onsite verifican el restante 10% de los servidores del piso 2. Los servidores del piso 1 se espera que comiencen a estar en línea en la tarde-noche.

Junio 2 – 9:10am CDT

Tenemos 90% de los servidores localizados en el piso 2 estan en línea. Técnicos de soporte estan físicamente en las instalaciones poniendo manualmente en linea al 10 % restante.

Junio 2 – 5:40am CDT

Hemos hecho significativos avances en restuarar los servidores del segundo piso, se esta verificando que todos los servers estén arrancando correctamente y trabajando sobre cualquiera qu eno lo estuviera haciendo. Seguimos manteniendo la marca de que hoy en la tarde estará restaurado el sistema electrico en el piso 1 .

Junio 2 – 12:50am

El jefe del departamento de bomberos ha inspeccionado H1DC y ha dado luz verde para regresar la energía a las instalaciones. Los generadores han sido encendidos y estamos recibiendo energia en el segundo piso. Una vez levantado el primer paso que es la restuaración de la energía. A partir de aquí, comenzaremos con el enfriamiento del piso del DC, que puede tomar unas horas. Tan pronto sea comprobada la integridad y el piso este listo para operaciones, comenzaremos a levantar los equipos rack-y-rack.

Junio 1 – 11:00pm

Primero que nada gracias por su paciencia y compresion por las pasadas 28 horas. Sabemos que el tiempo es vital para sus empresas y cotinuaremos trabajando contra el relog para restaurar los servicios.

Como ha leido, algunas piezas de equipo han llegado para iniciar las reparaciones. Ya que ninguno de los servidores de los clientes fueron dañados, tenemos informacion de que los daños causados a nuestras instalacion son peores de lo esperado. Tres muros del cuarto del equipo eleéctrico volaron varios metros desde su posicion original y el cableado que alimenta el piso 1 ha sido practicamente destruido.


Hay algunas buenas noticias. Hemos encontrado una forma de alimentar el segundo piso del H1DC y restaurar la conexión. Estaremos prendiendo los equipos de aire acondicionado y otros equipos necesarios en las próximas horas. Una vez que esos sistemas esten probados y funcionando, comenzaremos a montar los 6,000 servidores en línea. Tomará de 4 a 5 tenerlos levantados.

Para los que están en el primer piso del H1DC y que afecta a 3,000 servidores (Inluido ZD) las noticias no son tan buenas y no hemos sido tan afortunados.

El daño fue mucho mas extenso y será un gran esfuerzo que requerirá un proceso de dos pasos. EN el primer paso, hemos diseñado un metodo temporal que creemos brindará electricidad a estos servidores en algun momento del lunes en la tarde, pero la solución será temporal. Usaremos generadores para proveer de electricidad hasta el siguiente fin de semana cuando todo el equipo sea entregado para restaurar permanentemente la electricidad y nuestro sistema de baterías de respaldo. Durante la siguiente semana trabajaremos con nuestros clientes para resolver estos asuntos.

Sabemos que esto puede no ser una solucion satisfactoria para usted y su negocio en estos momentos, pero es lo mejor que podemos hacer.

Reconocemos que no son todas buenas noctias. Pero solo puedo asegurarles que continuaremos utilizando todos los medios posibles para restablecer el servicio completamente.

Douglas J. ErwinChairman & Chief Executive Officer The Planet

Junio 1 – 5:02pm

Continuamos con nuestros planes de proveer energía a partes del H1DC esta tarde. Tomará varias horas saber si la electricidad puede ser regresada de manera segura. Basados en como han reaccionado las cosas en unas horas tendremos ya algo mas formal que reportarles.

Mientras tanto, hemos reenrutado las direcciones anteriores y nueva de los servidores DNS, con esto podrán resolver con las dos direcciones IP, haciendo la proagación mas rápida y efectiva.

Junio 1 – 12:24pm

Esperamos poder brindar energia a algunas partes del H1 DC al rededor de las 5pm. A esa hora comenzaremos las primeras pruebas para probar y validar la red y sistemas de energia, prender los sistemas de aire acondicionado y monitorear condiciones ambientales. Estimamos que las pruebas duraran aproximadamente 4 horas. Siguiendo estas pruebas comenzaremos a darle poder a los servidores de los clientes en fases. Estos son tiempos aproximados y conforme tengamos mas información les mantendremos informados.

Junio 1 – 10:11am

Mas personas de la empresa han llegado junto con mas contratistas y provedores escenciales para ayudar en las instlaciones eletricar y poner H1DC en línea. A este momento, la infraestructura DNS continua propagandose. Los servidores del portal de clientes estan instalado, pero estamos concentrados en saber si la infraestructura de red esta lista y en condiciones perfectas.

Junio 1 – 8:54am

Los equipos de la empresa continuan trabajando en los varios asuntos que continuamos encontrando. Aun estamos haciendo progresos en lo mencionado anteriormente. Los DNS han sido migrados a otro Data Center y la propagación a empezado. Estamos trabajando en algunos aspectos de la base de datos en el portal de clientes y esperamos tenerlo resuelto pronto. Quede seguro de que nuestros equipos de trabajo estan haciendo su esfuerzo diligentemente para regresar el servicio a todos nuestros clientes afectados.

Junio 1 – 6:54am

Seguimos trabajando con varios asuntos esta mañana. Tendremos contratistas adicionales en el piso esta mañana desde las 7AM. Algunos remplazaran a los que han estado trabajando toda la noche y otros comenzaran con la recuperacion/instalacion del nuevo equipo electrico en el data center. Seguimos trabajando en nuestros DNS's y el Portal de clientes.Estamos haciendo progresos en ambos aspectos. Adicionalmente, nuestro equipo de ingenieeros ha trabajado toda la noche para preparar la recuperacon de la red en H1DC. Esperamos que la recuperacion de la red sea transparente cuando la energia regrese. Aun no tenemos un TER, pero esperamos tenerlo esta mañana. Nuestro staff y directores continuan trabajando desde la noche y seguiran en la mañana. Continuaremos brindando actualizaciones regulares,

Data Center H1 Updates

Junio 1 – 5:40am
Nuestro equipo UNIX y de desarrollo estan continuamente trabajado para restaurar el servicio en nuestros DNS's y el portal de clientes. Basados en la información actual, 4 de los 8 servidores DNS estan en linea y esperamos que proto puedan estar los otros 4. La granga de servidores ha sido movida a otro datacenter y continuamos trabajando par vovler a poner estos servicios en linea. En terminos de las instalaciones aun no tenemos un Tiempo Estimado de Recuperacion (TER). Continuamos trabajando en las instalaciones con nuestros proveedores para adquirir los renplazos y reinstalarlos para regresar en línea. Nuestros equipo trabajaremos toda la noche y les informaremos periódicamente.

Data Center H1 Updates

Mayo 31 – 11:58pm
Como saben, tenemos en este momento a los proveedores en el Data Center H1 (DCH1). Con su ayudata hemos creado una lista de equipo que debe ser readquirido, y estamos negociando con los fabricantes para obtener el equipo. Al ser Sábado en la noche, nos enfrentamos a algunos retos. Estanos priorizando de la siguiente manera:
Regresar el servicio de red en H1 es la principal prioridad, estamos obteniendo componentes de nuestros otros data centers -Incluido Dallas- en lo que será un esfuerzo de toda la noche.
Regresar la electricidad a H1DC es escencial. aunque es muy pronto para obtener exito en este punto.
Como el portal de clientes esta en H1DC, Nuestros clientes han quedado ciegos antes este incidente. Estamos trabajando en mover el servidor de atencion a clientes a otro data center aquí en houston para poder tenerlos informados.
Estamos absolutamente concientes del tiempo que llevamos fuera de linea y daremos crédito a nuestros clientes una vez comprendido el alcance en tiempo de la baja del sistema.Pero regresar todo en linea es le prioridad número 1.

Mayo 31 – 11:16pm
Debido a que los servidores de mantenimiento, dns's y portal de clientes estan localizados en H1, los servidios de venta de dominios, SSL y resellers han sido afectados por la baja del servicio.

Mayo 31 – 10:46pm
Este sabado, 31 de Mayo a las 4:55pm en nuestro Data Center H1, se provocó un corto circuito creando una explosión y un incendio que derrumbó 3 paredes que contenían nuestro cuarto de energía electrica. Afotunadamente, nadie salió lastimado. Adicionalmente, ningun servidor de nuestros clientes sufrio daño fisico o pérdida. Acabamos de ser autorizados a entrar en el edificio para inspeccionar el daño fisicamente. Las investigaciones preliminares indican que el corto fue en un conducto de algo alto volumen. No estamos permitidos a activar nuestros generadores de respaldo de acuerdo a las instruccones del departamento de bomberos. Como resultado el servicio esta fuera de línea y estamos trabajando para recuperarlo tan pronto nos sea posible. Mientras tanto llame a nuestros telegonos por cualquier detalle. Tecnicos adicionales estan en las instalaciones para ayudarnos. Los cambios de status estaran disponibles via está página. Realmente lamentamos el incidente y nos disculpamos sinceramente por el impacto. Sinceramente: Equipo de Atencon a Clientes.

Mayo 31 – 8:43pm
El portal para clientes esta fuera de línea. Contacte a nuestro soporte técnico si tiene alguna pregunta. Hemos comenzazo a mover el portal para clientes a una nueva infraestructura y lo mantedremos ingormado de los avances

Mayo 31 – 8:17pm
En nuestra última inspeccion hemos determinado que la instalación de red no ha sido dañada, pero seguimos sin electricidad por lo que el problema continua. Todos nuestros sistemas de recperacion de desastres estan en movimiento. y tenemos equipos ya trabajando en el data center.

Mayo 31 – 7:51pm
Hemos determinado que ningun servidor en el H1 DC ha sido dañado. Sin embargo, no estan activos porque no hay corriente electrica. Equipos de la empresa estan trabajando para brindar las acciones apropiadas. Lo mantendremos informado.

Mayo 31 – 7:36pm
Hoy aproximadamente a las 5:45 p.m., un transformador en nuestro H1 Datacenter en Houston se incendio, siendo requeridos a apagar todos los generadores por instrucciones del departamento de bomberos. Todos los servidores estan sin servicio. Estamos trabajando con el departamento de bomberos en nuestras instalaciones con el staff , para determinar la situación.

Mayo 31 – 6:29pm
The Planet esta experimentando una baja de sistema que esta afectando a un numero de servidores de clientes. Este asunto tal vez afecte la posibilidad de contactarnos por nuestro call center. Estamos haciendo todo lo posible por remediar este problema tan rapido como sea posible. Pondremos una actualización tan pronto tengamos mas información.