Quels sont les premiers enseignements de l’application de notre Plan de Continuité d’Activité (PCA) ?

Protection people health and insurance concept. Hand shield protect wooden human on table
Protection people health and insurance concept. Hand shield protect wooden human on table

De nombreux événements sont susceptibles de déstabiliser la continuité de l’activité d’une entreprise et de modifier les conditions de travail de ses salariés. Pour faire face à ces éventualités, les organisations établissent des Plans de Continuité d’Activité (PCA). C’est bien entendu le cas chez Hub One. Mais si notre PCA n’avait jamais servi pendant des années, nous avons dû récemment l’activer par deux fois en seulement quelques mois d’intervalle. Étions-nous prêts ? Quels enseignements avons-nous tirés de ces expériences, dont l’une dure encore aujourd’hui ?

 

Qu’est-ce qu’un PCA ?

Un Plan de Continuité d’Activité vise à identifier les menaces potentielles qui pèsent sur une organisation, ainsi que leurs impacts sur l’activité de l’entreprise. Le PCA regroupe ainsi toutes les actions à mener et les mesures à prendre, selon différents scénarios de crise, pour répondre aux 2 objectifs suivants :

 

–        Protéger les salariés pour faire face à des situations inédites

–        Maintenir les activités essentielles de l’entreprise, éventuellement en mode dégradé

Si ces deux objectifs sont en conflit, la sécurité et la santé des salariés priment avant tout.

 

Qu’avions-nous fait – chez Hub One – pour mettre en place notre PCA ?

La création de notre PCA a débuté avec un inventaire de notre infrastructure, suivi par un état des lieux de nos activités et enfin une évaluation des risques inhérents à notre environnement. Et cela, nous l’avons fait récemment d’une manière très précise pour nos Systèmes d’Information, puisque nous avons dû le documenter dans le cadre de la certification ISO27001 que nous venons d’obtenir, de la part de l’AFNOR.

 

Pour chacun des risques identifiés, accidentels ou malveillants, des procédures ont été définies afin de maintenir en condition opérationnelle nos « infras » et ceci, en protégeant la sécurité de nos employés. Par exemple dans le cas d’un incendie dans l’un de nos datacenters, il faut que l’infrastructure sur laquelle les opérations de nos clients reposent reste stable, et que nous puissions toujours déployer de nouveaux services chez tous nos clients, existants ou nouveaux. Pour les clients existants qui subissent des pannes, nous devons aussi être en mesure de les traiter.

 

Un certain nombre de mesures préventives ont donc été mises en œuvre, comme l’implémentation de mécanismes de redondance pour les éléments clés de notre infrastructure. Ainsi nos datacenters sont dupliqués en différents points géographiques, au sein d’une même plateforme aéroportuaire ou parmi les aéroports sur lesquels nous opérons. Les équipements et les tâches exécutées dans nos deux datacenters de Roissy-Charles-de-Gaulle et d’Orly sont interchangeables sans rupture de services, grâce à des mécanismes de détection de problèmes et de routage sophistiqués. D’autres mesures comme la sauvegarde et la restitution des configurations de nos clients sont aussi mises en place.

 

Puis est venu le temps des hypothèses durant lequel nous avons imaginé différents scenarii de perturbations possibles. Des événements dramatiques tels que des attaques terroristes ou la crise du SRAS en 2002-03 nous ont poussés à imaginer les impacts d’un fort taux d’absentéisme parmi nos employés ? En cas de télétravail de masse, quels problèmes techniques pourraient empêcher nos collaborateurs de se connecter au réseau ? Quelles tâches peuvent être réalisées à distance ? À l’inverse, quelles sont celles qui requièrent une intervention humaine sur site, et dans ce cas, quelles mesures de protection garantissons-nous pour nos collaborateurs ?

 

Enfin, une fois les hypothèses posées et nos réponses définies, nous les avons simulés lors de « jeux de rôle » avec la participation du plus grand nombre. Pour ceux qui n’ont pu y participer, une communication sur le retour d’expérience a été réalisée.

 

JANVIER 2020 – Déclenchement d’une alerte incendie dans notre datacenter principal

 

Hub One a dû activer son PCA en début d’année. Et paradoxalement, ce sont des travaux visant à améliorer la sécurité d’un de nos sites qui l’ont provoqué.

Le 29 janvier 2020, un sous-traitant qui découpait des matériaux dans l’enceinte de notre datacenter principal sans avoir respecté les consignes du plan de prévention travaux a généré un nuage de poussière modifiant l’opacité de l’air ambiant. Ceci a eu pour effet de déclencher le système anti-incendie qui n’avait pas été désarmé. Les salles serveur se sont automatiquement verrouillées et se sont remplies de gaz inerte en vue de stopper tout départ de feu. Contrairement aux systèmes à poudre ou à eau, il n’endommage pas le matériel fragile (matériel informatique, électronique…). Néanmoins la décompression brutale du gaz a provoqué des pannes sur les disques durs,

 

Qu’est-ce que cet événement critique nous a appris ?

1 – La redondance des équipements endommagés a globalement bien fonctionné. Les équipements redondés ou de secours ont  en effet pris le relais sans rupture de services notables pour la plupart de nos clients.

 

2 – Excellente réaction des équipes en place : les simulations qui avaient été effectuées en amont ont joué un rôle déterminant dans la mise en œuvre rapide des deux cellules de crises : la cellule opérationnelle et la cellule stratégique. Chacun savait exactement ce qu’il avait à faire : investiguer et intervenir sur les équipements pour les premiers, décider et gérer la crise pour les seconds.

 

3 – Un élan de soutien s’est organisé spontanément au sein de l’entreprise pour faciliter le quotidien des collaborateurs à pied d’œuvre pour remettre les équipements en état de marche : roulements, organisation des repas, vie de famille, etc.

 

Si au final, nous pouvons nous satisfaire pleinement du bilan de cet incident, il a aussi identifié des axes d’amélioration qui ont depuis été mis en œuvre. Certains éléments de redondance ont été revus, comme la nature des équipements de stockage de données, ceci afin de mieux garantir leur compatibilité avec l’explosion des gaz anti-incendie. Nous avons également renforcé le contrôle et l’accompagnement des sous-traitants intervenant sur nos sites les plus critiques.

 

Enfin, si nous avions bien anticipé la montée en charge de la hotline, nous avons amélioré ce dispositif par la diffusion de messages automatiques via le portail web dédié à nos clients. Des détails certes, mais que nous n’avions pas anticipés et qui nous permettent de nous améliorer.

 

MARS 2020 – Mise en place du confinement dans le cadre de la crise du coronavirus

 

Cette crise est inédite pour de multiples raisons. Elle est nouvelle de par son ampleur, sa complexité, son caractère changeant et sa nature imprédictible.

 

Partie d’une crise sanitaire, il est maintenant certain qu’elle sera aussi suivie d’une crise économique voire sociale.

 

Pour les entreprises, elle est source de problèmes variés pouvant aller jusqu’à la faillite des activités déjà en difficulté. La situation actuelle fait apparaitre de nouveaux risques, tant opérationnels qu’organisationnels, dont l’ampleur était difficilement envisageable. Inégale, cette crise a fait littéralement disparaître du jour au lendemain la quasi-totalité des sources de revenus de pans entiers de l’économie (transport aérien, hôtellerie, tourisme…), alors que pour d’autres, elle crée une suractivité (logistiques, santé, télécom…).

 

L’émotion et le stress légitime qu’elle génère impactent aussi les collaborateurs d’une manière inégale. Pour certains le télétravail a pu être adopté sans difficulté, pour d’autres (la majorité) il est source de problèmes.

 

Comme pour toute autre crise, nous avons dû déclencher notre PCA et, bien qu’il soit trop tôt pour en tirer des conclusions définitives, cette crise nous a déjà livré un certain nombre d’enseignements, tant d’un point de vue opérationnel, qu’humain et stratégique :

 

1 – On ne peut jamais être trop préparé ; toute planification même partielle et imparfaite reste primordiale.

 

2 – Il est important de bien communiquer en amont sur le PCA ; en période de stress, cela permet de raffermir la confiance des salariés dans la capacité de leur entreprise à gérer la crise et de maintenir une organisation efficace.

 

3 – Toute crise est une opportunité de renforcer la relation avec nos clients.

 

4 – Le ralentissement de l’activité est l’occasion de nous recentrer sur l’essentiel voire d’accélérer certains projets.

 

5 – Certaines crises, comme le COVID-19, font apparaître de nouveaux besoins dans les entreprises, donc de nouvelles opportunités, avec la possibilité de nous élever dans leur chaine de valeur.

 

6 – Le télétravail est maintenant rentré dans les mœurs obligeant certains à moderniser leurs infrastructures en adoptant massivement une infrastructure cloudifiée, ainsi que des services de collaboration dématérialisés.

 

7 – De nouveaux verticaux vont accélérer leur digitalisation, comme ceux de la santé, de la ville intelligente et du gouvernement.

 

8 – Savoir accepter l’incertitude tout en continuant à espérer !

Henri TALLON
Henri TALLON

Directeur Hub One | Télécom

Henri Tallon est le Directeur de la Business Unit Telecom Hub One depuis juillet 2019. Attaché à l’Auvergne et ses vieilles pierres, il aime s’y réfugier pour profiter de la forêt et des montagnes, avec sa famille, qui reste sa principale passion. Son gadget préféré est sa montre connectée, qui lui permet de garder un œil actif sur tous les sujets, suivre ses objectifs sportifs et rester en lien avec ses proches.
Pour garder une longueur d'avance, abonnez-vous

Besoin de plus d'informations