FS#91 : Incident sur l’infrastructure VPS située à MAR01

Serveurs privés (VPS)

État Fermée
Pourcentage achevé
100%
Type Incident
Catégorie Tout
Assignée à Personne
Sévérité Critique
Échéance Non décidée
Privée

Concerne le projet: Serveurs privés (VPS)
Ouverte par DH - 15/08/2015
Dernière modification par DH - 12/11/2015

FS#91 - Incident sur l’infrastructure VPS située à MAR01

Nous rencontrons actuellement un incident sur l’infrastructure VPS (serveurs privés) située à MAR01.

Des investigations sont en cours.

Fermée par DH
12 novembre 2015 11:37
Raison de la fermeture : Done

DH a commenté le 15 août 2015 10:28

Un redémarrage du cluster VSA (ce dernier gère le stockage HA des machines virtuelles a été initialisé).

DH a commenté le 15 août 2015 12:47

Le redémarrage de chaque cluster VSA n’a pas corrigé le problème.
Nous avons réalisé un redémarrage physique de chaque hôte ESXi mais nous avons toujours 2 clusters VSA offline.

DH a commenté le 15 août 2015 15:02

Les machines virtuelles redémarrent progressivement...

Nous allons communiquer un rapport incident d’ici la fin de la journée.

DH a commenté le 15 août 2015 17:04

Bonjour,

Ce matin, nous avons connu un incident majeur sur l’infrastructure VPS située au datacenter MAR01.

Avant de vous expliquer plus en détail l’incident rencontré,
nos équipes vous présentent ses sincères excuses pour la gène occasionnée.

Malgré une prise en charge très rapide de l’incident et
le fait que nous avons travaillé sans relâche durant de nombreuses heures,
nous regrettons le temps d’indisponibilité que cela a engendré pour certains clients.

A 8h10, nous avons reçu des alertes de nos outils de monitoring indiquant une latence anormalement élevée
sur certains serveurs privés hébergés dans le datacenter de MAR01. Nous avons constaté la mise en défaut
de 2 clusters de stockage sur 3. Ces clusters de stockage disposent d’un mécanisme haute disponibilité,
avec un replica sur le cluster voisin. La perte d’un cluster de stockage est gérée de manière transparente,
mais les performances s’effondrent dès 2 clusters. Le redémarrage des clusters puis des machines hôtes
n’a pas permis de récupérer le fonctionnement des clusters indisponibles. La restauration d’une machine
de gestion depuis un snapshot distant a été nécessaire afin de re-configurer l’ensemble des clusters et
retrouver un fonctionnement nominal.

Aucune données client n’a été impactée et nous ne connaissons pas la raison de la mise en défaut
simultanés des 2 clusters de stockage. Le problème rencontré est donc complexe et la restauration
de la machine de gestion a nécessité un certains temps.

Soyez assuré que nous prenons toutes les mesures nécessaires afin que cet incident ne se reproduise pas,
des investigations complémentaires sont prévues.

Cordialement,
Cédric

Chargement...

Raccourcis clavier

Activer les raccourcis clavier

SHIFT+ALT+l Se connecter/Se déconnecter
SHIFT+ALT+a Ouvrir une tâche
SHIFT+ALT+m Mes recherches
SHIFT+ALT+t Rechercher par ID de tâche

Liste des tâches

o Ouvrir la tâche sélectionnée
j Déplacer le curseur vers le bas
k Déplacer le curseur vers le haut

Détails de la tâche

n Tâche suivante
p Tâche précédente
SHIFT+ALT+e ENTER Modifier cette tâche
SHIFT+ALT+y Fermer cette tâche

Édition de la tâche

SHIFT+ALT+s Enregistrer la tâche