Serveurs privés (VPS)

  • Status Closed
  • Percent Complete
    100%
  • Task Type Incident
  • Category Tout
  • Assigned To No-one
  • Severity Critical
  • Due Date Undecided
  • Private
Attached to Project: Serveurs privés (VPS)
Opened by DH - 15/08/2015
Last edited by DH - 12/11/2015

FS#91 - Incident sur l’infrastructure VPS située à MAR01

Nous rencontrons actuellement un incident sur l’infrastructure VPS (serveurs privés) située à MAR01.

Des investigations sont en cours.

Closed by  DH
12 November 2015 11:37
Reason for closing:  Done
Admin
DH commented on 15 August 2015 10:28

Un redémarrage du cluster VSA (ce dernier gère le stockage HA des machines virtuelles a été initialisé).

Admin
DH commented on 15 August 2015 12:47

Le redémarrage de chaque cluster VSA n’a pas corrigé le problème.
Nous avons réalisé un redémarrage physique de chaque hôte ESXi mais nous avons toujours 2 clusters VSA offline.

Admin
DH commented on 15 August 2015 15:02

Les machines virtuelles redémarrent progressivement...

Nous allons communiquer un rapport incident d’ici la fin de la journée.

Admin
DH commented on 15 August 2015 17:04

Bonjour,

Ce matin, nous avons connu un incident majeur sur l’infrastructure VPS située au datacenter MAR01.

Avant de vous expliquer plus en détail l’incident rencontré,
nos équipes vous présentent ses sincères excuses pour la gène occasionnée.

Malgré une prise en charge très rapide de l’incident et
le fait que nous avons travaillé sans relâche durant de nombreuses heures,
nous regrettons le temps d’indisponibilité que cela a engendré pour certains clients.

A 8h10, nous avons reçu des alertes de nos outils de monitoring indiquant une latence anormalement élevée
sur certains serveurs privés hébergés dans le datacenter de MAR01. Nous avons constaté la mise en défaut
de 2 clusters de stockage sur 3. Ces clusters de stockage disposent d’un mécanisme haute disponibilité,
avec un replica sur le cluster voisin. La perte d’un cluster de stockage est gérée de manière transparente,
mais les performances s’effondrent dès 2 clusters. Le redémarrage des clusters puis des machines hôtes
n’a pas permis de récupérer le fonctionnement des clusters indisponibles. La restauration d’une machine
de gestion depuis un snapshot distant a été nécessaire afin de re-configurer l’ensemble des clusters et
retrouver un fonctionnement nominal.

Aucune données client n’a été impactée et nous ne connaissons pas la raison de la mise en défaut
simultanés des 2 clusters de stockage. Le problème rencontré est donc complexe et la restauration
de la machine de gestion a nécessité un certains temps.

Soyez assuré que nous prenons toutes les mesures nécessaires afin que cet incident ne se reproduise pas,
des investigations complémentaires sont prévues.

Cordialement,
Cédric

Loading...

Available keyboard shortcuts

Tasklist

Task Details

Task Editing