Dynamix Host

Serveurs privés (VPS)

  • Etat Fermée
  • Pourcentage achevé:
    100%
  • Type de tâche Incident
  • Catégorie Tout
  • Assignée à Personne
  • Système d'exploitation All
  • Sévérité Critique
  • Priorité Normale
  • Basée sur la version 1.0
  • Due pour la version Non décidé
  • Date d'échéance Non décidé
  • Votes 0
  • Privée Non
Concerne le projet: Serveurs privés (VPS)
Ouverte par DH (admin) - 2015-08-15
Dernière édition par DH (admin) - 2015-11-12

FS#91 - Incident sur l’infrastructure VPS située à MAR01

Nous rencontrons actuellement un incident sur l’infrastructure VPS (serveurs privés) située à MAR01.

Des investigations sont en cours.

This task does not depend on any other tasks.

Fermée par  DH (admin)
jeudi, 12 novembre 2015, 10:37 GMT
La raison de la clôture est:  Done
DH (admin)
samedi, 15 août 2015, 08:28 GMT
Un redémarrage du cluster VSA (ce dernier gère le stockage HA des machines virtuelles a été initialisé).
DH (admin)
samedi, 15 août 2015, 10:47 GMT
Le redémarrage de chaque cluster VSA n’a pas corrigé le problème.
Nous avons réalisé un redémarrage physique de chaque hôte ESXi mais nous avons toujours 2 clusters VSA offline.
DH (admin)
samedi, 15 août 2015, 13:02 GMT
Les machines virtuelles redémarrent progressivement...

Nous allons communiquer un rapport incident d’ici la fin de la journée.
DH (admin)
samedi, 15 août 2015, 15:04 GMT
Bonjour,

Ce matin, nous avons connu un incident majeur sur l’infrastructure VPS située au datacenter MAR01.

Avant de vous expliquer plus en détail l’incident rencontré,
nos équipes vous présentent ses sincères excuses pour la gène occasionnée.

Malgré une prise en charge très rapide de l’incident et
le fait que nous avons travaillé sans relâche durant de nombreuses heures,
nous regrettons le temps d’indisponibilité que cela a engendré pour certains clients.

A 8h10, nous avons reçu des alertes de nos outils de monitoring indiquant une latence anormalement élevée
sur certains serveurs privés hébergés dans le datacenter de MAR01. Nous avons constaté la mise en défaut
de 2 clusters de stockage sur 3. Ces clusters de stockage disposent d’un mécanisme haute disponibilité,
avec un replica sur le cluster voisin. La perte d’un cluster de stockage est gérée de manière transparente,
mais les performances s’effondrent dès 2 clusters. Le redémarrage des clusters puis des machines hôtes
n’a pas permis de récupérer le fonctionnement des clusters indisponibles. La restauration d’une machine
de gestion depuis un snapshot distant a été nécessaire afin de re-configurer l’ensemble des clusters et
retrouver un fonctionnement nominal.

Aucune données client n’a été impactée et nous ne connaissons pas la raison de la mise en défaut
simultanés des 2 clusters de stockage. Le problème rencontré est donc complexe et la restauration
de la machine de gestion a nécessité un certains temps.

Soyez assuré que nous prenons toutes les mesures nécessaires afin que cet incident ne se reproduise pas,
des investigations complémentaires sont prévues.

Cordialement,
Cédric

Chargement...