- Status Closed
- Percent Complete
- Task Type Incident
- Category Tout
- Assigned To No-one
- Severity Critical
-
Due Date
Undecided
- Private
FS#91 - Incident sur l’infrastructure VPS située à MAR01
Nous rencontrons actuellement un incident sur l’infrastructure VPS (serveurs privés) située à MAR01.
Des investigations sont en cours.
Un redémarrage du cluster VSA (ce dernier gère le stockage HA des machines virtuelles a été initialisé).
Le redémarrage de chaque cluster VSA n’a pas corrigé le problème.
Nous avons réalisé un redémarrage physique de chaque hôte ESXi mais nous avons toujours 2 clusters VSA offline.
Les machines virtuelles redémarrent progressivement...
Nous allons communiquer un rapport incident d’ici la fin de la journée.
Bonjour,
Ce matin, nous avons connu un incident majeur sur l’infrastructure VPS située au datacenter MAR01.
Avant de vous expliquer plus en détail l’incident rencontré,
nos équipes vous présentent ses sincères excuses pour la gène occasionnée.
Malgré une prise en charge très rapide de l’incident et
le fait que nous avons travaillé sans relâche durant de nombreuses heures,
nous regrettons le temps d’indisponibilité que cela a engendré pour certains clients.
A 8h10, nous avons reçu des alertes de nos outils de monitoring indiquant une latence anormalement élevée
sur certains serveurs privés hébergés dans le datacenter de MAR01. Nous avons constaté la mise en défaut
de 2 clusters de stockage sur 3. Ces clusters de stockage disposent d’un mécanisme haute disponibilité,
avec un replica sur le cluster voisin. La perte d’un cluster de stockage est gérée de manière transparente,
mais les performances s’effondrent dès 2 clusters. Le redémarrage des clusters puis des machines hôtes
n’a pas permis de récupérer le fonctionnement des clusters indisponibles. La restauration d’une machine
de gestion depuis un snapshot distant a été nécessaire afin de re-configurer l’ensemble des clusters et
retrouver un fonctionnement nominal.
Aucune données client n’a été impactée et nous ne connaissons pas la raison de la mise en défaut
simultanés des 2 clusters de stockage. Le problème rencontré est donc complexe et la restauration
de la machine de gestion a nécessité un certains temps.
Soyez assuré que nous prenons toutes les mesures nécessaires afin que cet incident ne se reproduise pas,
des investigations complémentaires sont prévues.
Cordialement,
Cédric