Serveurs privés (VPS)

  • État Fermée
  • Pourcentage achevé
    100%
  • Type Incident
  • Catégorie Tout
  • Assignée à Personne
  • Sévérité Critique
  • Échéance Non décidée
  • Privée
Concerne le projet: Serveurs privés (VPS)
Ouverte par DH - 15.08.2015
Dernière modification par DH - 12.11.2015

FS#91 - Incident sur l’infrastructure VPS située à MAR01

Nous rencontrons actuellement un incident sur l’infrastructure VPS (serveurs privés) située à MAR01.

Des investigations sont en cours.

Fermée par  DH
12.11.2015 10:37
Raison de la fermeture :  Done
Admin
DH a commenté le 15.08.2015 08:28

Un redémarrage du cluster VSA (ce dernier gère le stockage HA des machines virtuelles a été initialisé).

Admin
DH a commenté le 15.08.2015 10:47

Le redémarrage de chaque cluster VSA n’a pas corrigé le problème.
Nous avons réalisé un redémarrage physique de chaque hôte ESXi mais nous avons toujours 2 clusters VSA offline.

Admin
DH a commenté le 15.08.2015 13:02

Les machines virtuelles redémarrent progressivement...

Nous allons communiquer un rapport incident d’ici la fin de la journée.

Admin
DH a commenté le 15.08.2015 15:04

Bonjour,

Ce matin, nous avons connu un incident majeur sur l’infrastructure VPS située au datacenter MAR01.

Avant de vous expliquer plus en détail l’incident rencontré,
nos équipes vous présentent ses sincères excuses pour la gène occasionnée.

Malgré une prise en charge très rapide de l’incident et
le fait que nous avons travaillé sans relâche durant de nombreuses heures,
nous regrettons le temps d’indisponibilité que cela a engendré pour certains clients.

A 8h10, nous avons reçu des alertes de nos outils de monitoring indiquant une latence anormalement élevée
sur certains serveurs privés hébergés dans le datacenter de MAR01. Nous avons constaté la mise en défaut
de 2 clusters de stockage sur 3. Ces clusters de stockage disposent d’un mécanisme haute disponibilité,
avec un replica sur le cluster voisin. La perte d’un cluster de stockage est gérée de manière transparente,
mais les performances s’effondrent dès 2 clusters. Le redémarrage des clusters puis des machines hôtes
n’a pas permis de récupérer le fonctionnement des clusters indisponibles. La restauration d’une machine
de gestion depuis un snapshot distant a été nécessaire afin de re-configurer l’ensemble des clusters et
retrouver un fonctionnement nominal.

Aucune données client n’a été impactée et nous ne connaissons pas la raison de la mise en défaut
simultanés des 2 clusters de stockage. Le problème rencontré est donc complexe et la restauration
de la machine de gestion a nécessité un certains temps.

Soyez assuré que nous prenons toutes les mesures nécessaires afin que cet incident ne se reproduise pas,
des investigations complémentaires sont prévues.

Cordialement,
Cédric

Chargement...

Activer les raccourcis clavier

Liste des tâches

Détails de la tâche

Édition de la tâche