Plan de Reprise d’Activité (PRA) et Plan de Continuité d’Activité (PCA) : pourquoi et comment ?
Sommaire
I. Présentation
Dans cet article, nous allons introduire un sujet très important lorsque l’on gère un système d’information : le PRA et le PCA. Nous allons détailler ces termes et voir pourquoi ils sont à considérer tôt dans le cycle de vie du système d’information.
Tout système d’information d’une entreprise finit un jour ou l’autre par subir une crise d’envergure. Pour survivre à ces crises, le mieux est encore de les anticiper et de se préparer à y faire face. Deux outils clés pour y parvenir sont le Plan de Reprise d'Activité (PRA) et le Plan de Continuité d'Activité (PCA). Ces plans permettent aux organisations de se préparer et de répondre efficacement aux incidents pouvant perturber leur fonctionnement. Mais qu’est-ce que cela signifie concrètement ?
Plus formellement, la norme ISO 22300-2021 (nommée "Sécurité et résilience") définit la continuité d’activité avec les mots suivants : information documentée qui guide un organisme pour répondre à une perturbation et reprendre, rétablir et restaurer la livraison ou la fourniture de produits et services en cohérence avec ses objectifs de continuité d’activité.
II. Qu'est-ce que le PRA et le PCA ?
A. Pourquoi l’activité peut-elle s’interrompre ?
Avant de parler des solutions que représentent le PRA et le PCA, parlons un peu des problèmes dont ils permettent de se protéger.
Cyberattaques, catastrophes naturelles, erreurs humaines ou encore défaillances matérielle ou électrique majeures... Ces différents sinistres arriveront forcément au cours de la vie d’un système d’information. La plupart du temps, l’impact de ces évènements sera assez minime, localisé et vite résolu. Il peut cependant arriver à de plus rares occasions qu’ils impactent la totalité d’un système d’information pour une durée beaucoup plus longue (plusieurs heures, voir plusieurs jours).
Le 2 novembre 2023, une panne complète d'alimentation dans un centre de données Cloudflare a causé des interruptions de service pour Workday et Cloudflare pendant plus de 36 heures (Source : ThousandEyes). Quand on sait que Cloudflare traite en moyenne (57 millions de requêtes par seconde) la moindre défaillance peut impacter une grande partie d’Internet.
Dès lors, il est important d’avoir au préalable mis en place les outils, les infrastructures, les procédures et les compétences permettant d’assurer que l’activité du système d’information, et donc de l’entreprise puisse se poursuivre. C’est le rôle des plans de continuité et de reprise d’activité.
B. PRA : Assurer la reprise de l’activité
Le Plan de Reprise d'Activité (PRA), que l’on peut aussi nommer PRA informatique ou « Disaster Recovery Plan », permet de définir ce qu’il faut faire lorsque le système d’information est « par terre », c’est-à-dire que plus rien ne fonctionne correctement.
Il s’agit plus précisément des procédures organisationnelles et techniques à suivre pour redémarrer et restaurer le système d’information après un incident majeur ayant entraîné un arrêt total ou partiel du système d’information. L'objectif principal est alors de minimiser le temps d'arrêt et de récupérer les opérations normales et les applications critiques dans les plus brefs délais.
Lorsque l’on doit activer et utiliser le PRA, c’est qu’un incident de taille s’est produit et que la majorité des services et des éléments vitaux du système d’information ne sont plus fonctionnels (endommagés, éteints ou détruits).
Imaginez une situation où votre contrôleur de domaine ainsi que la totalité de vos serveurs métiers sont éteints à cause d’une mauvaise manipulation d’un administrateur ayant entraîné la suppression de toutes les VM de votre hyperviseur. Avez-vous une procédure vous permettant de redéployer votre infrastructure rapidement ?
Pour prévoir et anticiper au mieux ce genre de cas de figure, l’entreprise doit disposer d’un Plan de Reprise d’Activité qui détaille les procédures à suivre en cas d’incident majeur, mais aussi des outils et des infrastructures nécessaires à l’application de ce plan.
C. PCA : Assurer la continuité de l’activité
Le Plan de Continuité d'Activité (PCA) vise à maintenir les fonctions critiques de l'entreprise en cas de perturbation. Contrairement au PRA, qui se concentre sur la reprise après un incident, le PCA s'attache à garantir que les opérations essentielles se poursuivent pendant la crise. L’objectif est donc d’éviter à tout prix l’interruption malgré l’apparition d’un incident.
Plus concrètement, le rôle du PCA est de rendre invisible, ou le moins visible possible, un incident sur un composant essentiel du système d’information. Ainsi, d’autres composants non essentiels pourront être impactés, mais pas ceux identifiés comme vitaux pour la préservation de l’activité.
Le PCA s’applique à des systèmes pour lesquels une interruption, même très courte, représente un risque majeur pour le bon fonctionnement de l’entreprise.
Voyons ensemble un exemple : on peut accepter que le système de paie des salariés du SI d’une centrale nucléaire soit indisponible quelques instants à la suite d’une cyberattaque. En revanche, le système de contrôle de la température des différents systèmes de refroidissement ne doit jamais être interrompu. Dans cet exemple, le système de paie des salariés sera certainement intégré à un PRA, alors que le système de contrôle des températures fera l’objet d’un PCA et d’un PRA.
Le PCA fait donc intervenir des mécanismes, procédures et technologies similaires au PRA, mais s’ajoute à ceux-ci des systèmes de contrôle en temps réel du bon fonctionnement des composants concernés, ainsi que des systèmes de bascule automatique de l’activité vers un SI prêt à prendre le relais en quelques secondes.
Pour récapituler, nous voyons que le PRA et le PCA ont des objectifs différents, même si l’on parle souvent de ces termes comme du "PRA/PCA". L’un est plutôt axé sur la reprise de l’activité après un sinistre, le second vise à lutter contre les interruptions de service.
D. SLA, RTO et RPO dans le contexte du PRA/PCA
Dans le cadre des PRA/PCA, deux concepts clés sont le RTO (Recovery Time Objective) et le RPO (Recovery Point Objective).
Le Recovery Time Objective (RTO) représente la durée maximale acceptable pendant laquelle un système, une application ou une fonction doit être restauré après une interruption pour éviter des conséquences inacceptables sur l'activité. En d'autres termes, c'est le temps maximal que peut durer une panne avant d'impacter gravement l'entreprise. Par exemple, si le RTO d'un serveur de base de données est de 4 heures, cela signifie que la restauration du serveur doit être effectuée dans ce délai pour minimiser les perturbations.
Le Recovery Point Objective (RPO), quant à lui, définit la quantité maximale de données que l'entreprise peut se permettre de perdre en cas d'interruption. Il s'agit du point dans le temps jusqu'auquel les données doivent être restaurées après une panne. Par exemple, si le RPO d'une application est de 1 heure, cela signifie que les sauvegardes doivent être effectuées toutes les heures pour garantir que la perte de données n'excède pas cette période en cas de panne.
Supposons, avec des chiffres fictifs, qu'Amazon ait un RPO de 5 minutes pour ses bases de données de transactions. Cela signifie que, en cas de panne, Amazon peut tolérer une perte de données de 5 minutes maximum. Avec environ 4 000 commandes traitées par minute, une panne entraînant la perte de données non sauvegardées pourrait se traduire par la perte de 20 000 commandes (4 000 commandes/minute fois 5 minutes). À une valeur moyenne de commande de 50$, cela représenterait une perte financière directe d'environ 1 000 000 $, sans compter l'impact négatif sur la satisfaction client et la réputation de l'entreprise.
Ces deux mesures sont donc très importantes pour construire des stratégies de sauvegarde et de récupération adaptées à vos besoins.
Enfin, dans le contexte du PRA/PCA, un SLA (Service Level Agreement), ou accord de niveau de service, est un contrat entre un fournisseur de services et un client qui définit les niveaux de service attendus. Il précise les attentes de performance et les responsabilités, incluant des métriques spécifiques telles que la disponibilité, le temps de réponse et le délai de résolution des incidents. Dans le cadre d’un PRA/PCA, le SLA est très important puisqu'il définit contractuellement les seuils de tolérance pour les interruptions et les performances minimales requises pour les services critiques. Par exemple, un SLA peut stipuler que le temps de bascule d’un système de contrôle critique ne doit pas dépasser quelques secondes pour garantir la continuité de l’activité.
Dans le cas où tout ou partie de votre infrastructure est supportée par un fournisseur tiers, il faut s'assurer que le SLA mentionné dans votre contrat correspond aux objectifs de continuité et de reprise que vous vous êtes fixé et qu'il couvre bien les systèmes que vous définissez comme critique. En cas de non respect du SLA de la part de votre fournisseur, des pénatlités financières sont généralement prévues.
III. Pourquoi mettre en place un PRA/PCA ?
Nous avons déjà évoqué les cas de figure qui peuvent mener à la mise en place et l’utilisation d’un PRA/PCA, mais concrètement et en prenant un peu de hauteur, nous pouvons évoquer les points suivants concernant les principales raisons de la mise en place d’un PRA/PCA :
- Assurer la survie de l'entreprise : en cas d'incident majeur, un PRA/PCA bien élaboré peut faire la différence entre une entreprise qui survie et une autre qui sera impactée beaucoup plus lourdement. On peut notamment mentionner l’infection par un ransomware qui aurait chiffré tout le système d’information.
- Protéger les actifs et les données : les plans de reprise et de continuité permettent de sécuriser les données sensibles et les actifs de l'entreprise, évitant ainsi des pertes financières et des atteintes à la réputation causées par la perte des données ou de disponibilité d’un service.
- Conformité réglementaire : de nombreuses industries sont soumises à des réglementations strictes en matière de sécurité et de continuité d'activité. Un PRA/PCA permet de répondre à ces exigences légales, qui sont imposées justement pour assurer une survie de l’entreprise quand son activité est jugée essentielle pour ses partenaires, clients ou même pour un État. On peut ici mentionner les sites industriels sensibles, les infrastructures de télécommunication ou de transport.
Au-delà de la préservation et la reprise du fonctionnement des activités du système d’information, il ne faut jamais oublier que celui-ci supporte toute l’activité de l’entreprise. Il s’agit donc de mettre en place les outils et procédures pour assurer sa survie.
Il faut également garder en tête que lorsque des incidents majeurs surviennent, les individus gardent rarement leur sang-froid et peuvent rapidement paniquer. Ainsi, il est important d’avoir des procédures connues, des documentations claires et efficaces pour minimiser les erreurs pouvant ralentir la remise en route du SI, voire aggraver les choses.
Les PRA et PCA sont fait pour réduire les pertes financières, protéger la réputation de l'entreprise et assurer la conformité réglementaire. Ils permettent également de renforcer la résilience organisationnelle en préparant l'entreprise à faire face à diverses menaces, qu'elles soient naturelles, technologiques ou humaines.
IV. Quels outils pour la mise en place d’un PRA/PCA ?
Assurer la reprise de l’activité en temps réel, redéployer tout un SI… Il ne suffit pas de le dire, il faut au préalable avoir mis en place les outils, infrastructures et documents nécessaires à ces procédures. Ainsi, il est important de retenir qu’il ne s’agit pas uniquement de quelques éléments techniques comme s’assurer d’avoir une sauvegarde de notre serveur de fichier.
A. Les grandes étapes de mise en place d’un PRA/PCA
Nous allons à présent voir comment se déroule, dans les grandes lignes, la mise en place d’un PRA/PCA :
- Lister les activités et ressources critiques
Cette étape consiste à identifier les composants essentiels du système d’information et de l’entreprise en évaluant notamment les impacts potentiels en cas d'interruption. On parle ici, par exemple, des applications métiers vitales, celles qui supportent l’activité principale de l’entreprise, mais aussi tous les services techniques permettant leur fonctionnement.
- Évaluer les risques
Il faut ensuite identifier les menaces potentielles qui pèsent sur les composants critiques identifiés et évaluer leurs vulnérabilités en termes de disponibilités. Cela inclut les cyberattaques, les pannes matérielles, les catastrophes naturelles, les mauvaises manipulations, etc. Lequel de ces exemples est le plus probable en fonction de votre contexte ? Lequel impacterait le plus lourdement les fonctions vitales de votre système d’information ? L’évaluation de leur probabilité d’apparition et de leur impact permet de mieux se préparer et de mettre en place des priorités.
- Définir les stratégies de continuité et de reprise
Cette étape consiste à imaginer, définir et documenter les solutions pour assurer la continuité des opérations et la reprise rapide des activités. Cela peut inclure des solutions de sauvegarde, des sites de secours et des procédures de restauration par exemple.
- Mettre en œuvre les plans
Il s’agit ici de mettre en place concrètement les solutions définies, il s’agit de la phase la plus longue et la plus coûteuse. Celle-ci passe souvent par la mise en place d’un datacenter externalisé et distant, mais aussi l’utilisation du Cloud, ainsi que les solutions techniques pour récupérer et redéployer les sauvegardes ou basculer sur un SI de secours.
Cela passe également l’écriture et la diffusion de procédures détaillées, mais aussi la formation du personnel pour qu'il soit prêt à agir en cas de crise.
Par exemple, que faire en cas de cyberattaque entraînant une destruction de votre cœur de réseau ? La réponse sera peut-être inscrite dans une procédure stockée sur votre SharePoint, mais vous n’avez à présent plus d’accès au réseau…
Dans ce cas de figure, il peut être utile d’avoir imprimé une fiche pratique avec le numéro de téléphone d’un CERT (équipe de réponse à incident) comme l’ANSSI.
- Tester et contrôler régulièrement
C’est l’étape qu’il ne faut surtout pas oublier. Les plans et procédures doivent absolument être testés régulièrement afin de s’assurer de leur exhaustivité et efficacité. Il s’agit également de mettre à l’épreuve grâce à des situations réelles les solutions techniques et l’équipe en charge du déroulement de ces plans.
B. Les outils techniques
La mise en place d'un PRA/PCA repose sur plusieurs technologies qu'il faut maîtriser et implémenter avant qu'un incident majeur ne survienne. Voici quelques exemples :
- Solutions de sauvegarde et de restauration : il est important de sauvegarder régulièrement vos données et de pouvoir les restaurer rapidement en cas de besoin. Des outils comme Veeam et Acronis, ainsi que des services de sauvegarde Cloud comme AWS Backup et Azure Backup, peuvent être utilisés. Il convient également de tester ses sauvegardes de façon régulière.
- Virtualisation : la virtualisation permet de copier, sauvegarder et redéployer toute une infrastructure de manière flexible et contrôlée. Des solutions comme Proxmox, VMware et Hyper-V offrent des moyens efficaces de gérer ces tâches.
- Solutions Cloud : utiliser des services cloud comme AWS, Azure, et Google Cloud Platform permet de bénéficier d'infrastructures robustes et redondantes, idéales pour la sauvegarde des données et le maintien de l'infrastructure en cas de sinistre.
- Infrastructure redondante : mettre en place une copie de votre infrastructure dans un emplacement géographique différent de votre datacenter principal permet d'assurer la continuité des opérations en cas de panne majeure.
- DRaaS (Disaster Recovery as a Service) : utiliser des solutions dédiées comme le DRaaS permet de gérer la récupération après sinistre de manière efficace et automatisée.
C. Les outils organisationnels
En plus des aspects techniques, la mise en place d'un PRA/PCA nécessite également des outils organisationnels pour assurer une gestion efficace des crises. Voici quelques exemples :
- Stratégies de sauvegarde : il ne suffit pas d'avoir un serveur de sauvegarde, il faut aussi planifier et gérer des sauvegardes régulières et sécurisées (incrémentielles, différentielles et complètes) pour minimiser la perte de données.
- Formation et sensibilisation : former régulièrement le personnel aux procédures de reprise et organiser des exercices pour tester leur réactivité est primordial. Cela permet de s'assurer que tout le monde sait quoi faire en cas d'incident.
- Coordination avec les parties prenantes : collaborer avec les fournisseurs, partenaires et clients pour garantir une continuité fluide des opérations. Une bonne communication et coopération sont essentielles en période de crise.
- Documentation détaillée : avoir des procédures écrites claires pour chaque étape du processus de reprise, incluant des check-lists et des guides de redémarrage, aide à minimiser les erreurs et à accélérer la récupération.
- Tests réguliers : tester le plan de manière périodique pour s'assurer de son efficacité et de sa pertinence. Cela permet de détecter et corriger les éventuelles lacunes ou retards qu’il contient, notamment en cas d’évolution du système d’information.
En maîtrisant ces outils techniques et organisationnels, vous pouvez mettre en place un PRA/PCA efficace, capable de protéger votre entreprise contre les interruptions majeures et d'assurer une reprise rapide et ordonnée des activités.
V. Conclusion
Vous avez maintenant les bases pour comprendre ce qu’est un PRA et un PCA et à quels besoins ils répondent. La mise en place d'un PRA et d'un PCA robustes est un investissement de taille pour toute entreprise souhaitant assurer sa pérennité face aux aléas. Mais, ils deviennent rapidement indispensables lorsque l’on commence à envisager ou à subir les dégâts d’un sinistre.
Il faut également savoir que lorsque l’on sort de notre sphère technico-technique, le terme PRA/PCA s’applique à toute une organisation, incluant les salariés, les procédés de fabrication, la logistique, etc. Dans ce contexte plus global, on parle plutôt de PRI/PCI (Plan de Reprise Informatique/Plan de Continuité Informatique) pour le volet qui porte sur le système d’information. C’est un détail important pour éviter les incompréhensions en fonction des personnes avec lesquelles on échange.
Pour finir, il ne faut pas oublier de faire évoluer ces procédures tout au long du cycle de vie de l’entreprise, les priorités, composants essentiels et risques pouvant évoluer avec le temps.