Post-mortems de la VPSI

Interruption du site www.epfl.ch (OUT0001470)

Jeudi 23 mai 2019 entre 9h57 et 10h15, pendant l'exécution de CHG0034820, 2384 requêtes ont été perdues sur le site www.epfl.ch dont 501 sur la page d’accueil, à cause concommitamment d'une faiblesse dans le traitement d'un grand nombre de tâches parallèles par Ansible, et d'erreurs de l'opérateur.

Le post-mortem complet est disponible.

Posted by Dominique Quatravaux at 15:22
Comments (0)
7 décembre 2018 : mise à jour inopinée vers WordPress 5

Une mise à jour non planifiée vers WordPress 5 a bloqué les écritures sur les sous-sites de www.epfl.ch pendant environ 12 heures (dont une matinée ouvrable) à un moment peu propice (deux jours avant le lancement de celui-ci). Les mesures mises en place par l’équipe WordPress pour éviter ce scénario se sont avérées inopérantes.

Analyse complète

Posted by Dominique Quatravaux at 13:51
Comments (0)
18 septembre 2018 : configuration SSL-TLS trop moderne des serveurs LDAP

La décision, motivée par des questions de sécurité informatique, de «durcir» les cryptosystèmes proposés par les serveurs LDAP de l’École (ldap.epfl.ch et scoldap.epfl.ch) a provoqué la panne d’un certain nombre de clients anciens pendant environ 1h10, parmi lesquels IS-Academia, l’envoi d’e-mails (dans certains cas), et i-moniteur.

La panne est connue dans ServiceNow sous l'identifiant OUT0000912

Analyse complète

Posted by Dominique Quatravaux at 13:48
Comments (0)
13-14 septembre 2018 : charge excessive sur Tequila

Un comportement anormal du client Tequila pour Apache, mod_auth_tequila version 2.0.16 se produit lorsqu’il ne parvient pas à écrire ses sessions sur disque; au lieu de servir une erreur aux clients, il répète inlassablement la requête auprès de Tequila, entraînant la surcharge observée ce jour.

Analyse complète

 

Posted by Dominique Quatravaux at 17:32
Comments (0)
RSS