Mobile menu

Plan de continuité / reprise d’activité

Par définition un PRA c'est un plan qui doit intervenir quand la production est interrrompue. C'est donc un moment critique qui ne peut pas échouer. Tout comme 70% des restaurations par bande échouent au moment voulu, les PRA sont des process complexes qu'il est bon de tester de temps en temps.

En savoir plus sur le PRA Itil V3.0

1. Introduction

Qu'est-ce qu'un Plan de Continuité d'Activité ?

Un PCA ou DRP (Disaster Recovery Plan) est un dispositif organisationnel et technique qui vise à limiter l'impact potentiel d'un sinistre.

Si il y a diverses méthodes pour implémenter un Plan de Continuité d'Activité, l'objectif de cet article est de décrire les étapes indispensables pour s'assurer que le dispositif mis en œuvre sera conforme aux attentes en termes de disponibilité et de continuité.

2. Terminologie

DRP Distaster Recovery Plan ou PCA Plan de Continuité d'Activité : Plan permettant à un organisme de fonctionner en cas de situation de crise majeure après l'occurrence d'un sinistre.

Sinistre :Catastrophe entraînant des pertes matérielles et humaines. Pertes et dommages causés par un accident, un incendie, etc., couverts par une assurance.

Risque : Perte potentielle, identifiée et quantifiable (enjeux), inhérente à une situation ou une activité, associée à la probabilité de l’occurrence d’un événement ou d’une série d’événements.

Menace : Une menace est la cause potentielle d'un ou plusieurs incidents. Et peut résulter en un dommage au système ou à l'organisation (définition selon la norme de sécurité des systèmes d'information ISO 13335-1).

Vulnérabilité : Faiblesse dans un système ou une organisation permettant à un attaquant de porter atteinte à son intégrité ou à son fonctionnement normal.

Impact : C'est une mesure des effets tangibles et intangibles, positifs et négatifs qu'un incident, un accident, un changement, un problème ou un mouvement a, ou pourrait avoir, sur son environnement.

Priorité : C'est l'ordre dans lequel un incident, un problème, un risque doit être traité.

SPOF (Single Point Of Failure) : Élément non redondé qui représente un risque pour l'organisme ou le système.
3. Analyse des risques

L'analyse des risques est la pierre angulaire du dispositif. Vous ne pouvez pas aller plus loin dans la démarche sans y consacrer une étude approfondie.

3.1. Analyse du contexte

C'est l'étape de définition même de l'objet du PCA. C'est à dire l'intention du projet de mise en œuvre de la continuité de Service.

Qui en est à l'origine ? Le projet est il porté par le management ?
Des moyens sont-ils alloués au projet ?
Pour quelles raisons souhaite t'on le mettre en œuvre ?
Une fois que vous avez formalisé l'ensemble des questions et des réponses relatives à ce qui motive le déploiement d'un PCA vous entrez dans la phase opérationnelle. A présent il convient de comprendre le fonctionnement de l'organisation cible.A cet effet il faut collecter tous les éléments nécessaires à votre analyse :

Cartographie des processus,
Cartographie applicative et réseau,
Normes et référentiels applicables (ISO/IEC 9001, SOX, Bâle II, etc.),
Budgets,
Unités d'œuvre,
Schéma directeur,
Organigrammes,
etc.
Une fois collecté, ces documents doivent être analysés pour parfaire votre compréhension de l'organisation, de ses enjeux business, de ses contraintes. Ne perdez pas de vue que l'analyse des risques a pour objectif d'identifier les risques qui pèsent sur l'entreprise, et que vous êtes précisément en phase d'identification des risques pour plus tard mettre en œuvre des contres-mesures. A ce stade une synthèse doit être réalisée et présentée au donneur d'ordre afin de valider d'une part le périmètre choisi, et d'autre part que la compréhension du projet est alignée sur les enjeux de l'organisme.

3.2 Identification des menaces, des risques et des vulnérabilités

3.2.1 Identification des menaces

Cette étape à pour but de dresser un panorama si possible exhaustif des menaces qui pèsent sur l'organisation.

Ses menaces et vulnérabilités peuvent être d'ordres variés :

Financières,
Stratégiques,
Opérationnelles,
Techniques,
Sécuritaires.
3.2.2 Identification des risques

Dès lors que les menaces qui pèsent sur l'organisme sont identifiées,  vous êtes en mesure de dresser la cartographie des risques. Autrement dit quels sont les risques potentiels induit par l'exploitation d'une menace identifiée.

A présent vous devez être en mesure de catégoriser les risques et de les regrouper en scénarii selon leur type et leur impact potentiel.

L'évaluation du risque se fait selon 2 critères :

L'impact (potentiel du risque).
La probabilité, c'est à dire son degré d'occurrence ou encore la potentialité que le risque survienne.
Un exemple de grille des risques :


3.2.3 Identification des vulnérabilités

Cette phase peut être réalisée simultanément à l'analyse des menaces et des risques, puisque c'est la vulnérabilité d'un système ou d'une organisation à une menace qui détermine le degrés d'occurrence d'un risque.

En plus clair, si une menace est avérée et que la vulnérabilité est exploitable la probabilité de survenance du risque est supérieure.

Cela vous permet de catégoriser les risques en fonction du type de menace et du degrés de vulnérabilité.

3.3 Synthèse et plan d'action

Lorsque ces activités ont été réalisées vous êtes en mesure de proposer une synthèse, laquelle servira à concevoir le plan d'action. Cette synthèse doit présenter :

Un plan de réduction des risques mineurs (tels que les SPOF par exemple) ou majeur selon leur degrés de vulnérabilité,
Une cartographie des risques catégorisés par impact et degré d'occurrence,
La justification des risques qui ne sont pas traités.
La plan d'action doit quant à lui inclure :

Les actions nécessaires à la réduction des risques,
Les actions nécessaires à l'élimination des SPOF,
Les actions nécessaires à l'élimination des risques majeurs,
la priorité de traitement des risques identifiés.
Tous ces éléments doivent être présentés afin de définir les moyens et objectifs qui seront affectés au projet de Continuité d'Activité. Pour en savoir plus sur l'analyse des risques consultez la rubrique "lien"

4. Plan de continuité d'activité (DRP/PCA)

La mise en place du Plan de Continuité d'Activité est constitué de 4 phase majeures. Ces phases sont décrites ci-après.


4.1. Plan de Sauvegarde

Le plan de sauvegarde se situe en amont du sinistre, c'est la phase préparatoire lors de laquelle on va non seulement identifier les scénarii de sinistralité, mais aussi construire la réponse à ce sinistre.

Avant d'aller plus loin dans le projet vous devez prévoir le mode de continuité choisi :

Continuité de service intégrale sans coupure,
Continuité de service intégrale avec coupure,
Continuité de service partielle avec/sans coupure (mode dégradé)
Les décisions prises à ce stade vont définir les dispositions mises en œuvre dans votre plan de secours. Il est donc important de ramener ce choix à la cartographie des risques réalisées au préalable et rapportée aux enjeux business pour votre organisation. A titre d'exemple, pour une organisation qui ne facturerait pas ses clients en internes, la comptabilité interne n'est pas un service critique. Aussi le management pourra décider de ne pas l'inclure dans l'option de reprise "continuité partielle".

4.1.1. Construction du plan de secours

L'objectif du plan de secours est de réduire ou limiter l'impact d'un sinistre. L'étape de construction est donc la clé de voute des opérations qui seront réalisées à terme.

Le plan de secours doit :

être aligné sur risques vitaux de l'entreprise,
intégrer les enjeux business de l'organisation,
ajuster les dispositions de secours à ces enjeux,
être aligné avec la grille des risques,
être évaluable sur la base d critères tangibles (eg : nombre de service redémarrés en moins de 8 heures),
inclure la durée d'indisponibilité tolérée,
inclure la liste des service redémarrés après coupure,
inclure la liste des services sans interruption,
intégrer les mesures curatives,
intégrer les contres-mesures mis déployées pour réduire les risques majeurs
La construction du plan de continuité d'activité répond aux mêmes critères qu'un projet.

Analyse :Analyse des étapes précédentes
Conception : Collecte des besoins internes en termes de continuité/disponibilité puis proposition d'une solution.
Validation : Validation de la solution


Le plan de sauvegarde peut être scindé en 3 sections.


4.1.2. Dispositions Techniques et Architecturales

Les dispositions techniques et architecturales couvrent l'ensemble des moyens techniques  à déployer en amont.

Selon la typologie du plan de continuité adressé, son périmètre couvrira :

Les salles aussi bien que les biens d'équipements,
Les données disponibles et intègres sur les systèmes,
Les applications et systèmes pré installés et pré configurés sur l'environnement de secours,
Des réseaux de données disponibles,
Des réseaux téléphoniques disponibles,
Une architecture de sauvegarde sur le site distant.
Une fois les choix actés, il faut les faire valider par le management.

4.1.3. Dispositions Procédurales

Si le dispositif technique constitue le socle du PCA, l'enjeu du projet porte véritablement sur l'organisation et notamment sur sa capacité à fonctionner dans un contexte de sinistre. En effet, après que le sinistre soit intervenu il est possible que les locaux, les équipements, le téléphone ne soient plus accessibles.

C'est pourquoi les dispositions procédurales et documentaires vont permettre à l'organisation de préparer, puis de formaliser les dispositions opérationnelles à réaliser une fois la survenance du sinistre.

Les procédures et processus doivent être formalisés, diffusés, compris et maitrisés.

4.1.3.1 Documentation

La documentation doit rassembler tous les éléments nécessaires à l'exécution du PCA, il s'agit :

des procédures de restauration et de sauvegarde,
des documents fonctionnels tels que la remise en service des applications métiers,
des documents décrivant les membres de la cellule de crise,
liste des numéros  de téléphones des spécialistes, des fournisseurs, des mainteneurs, éditeurs, etc.
etc.
Les documents doivent être accessibles en format électronique et papier sur site. Bien entendu seules les dernières versions autorisées doivent être mises à disposition.

4.1.3.2. Procédures d'intervention

Les procédures d'intervention décrivent le mode de bascule opérationnel. Elles doivent inclure :

Les rôles et responsabilités,
Les modes opératoires,
Les formulaires type de document,
Les instructions de travail,
Les procédures de soutient, de communication, durant la crise,
etc.
4.1.4. Dispositions Organisationnelles

Les dispositions organisationnelles prévoient l'organisation qui sera mise en branle durant la crise. Elles doivent être exhaustives et bâties au regard de la législation, notamment par rapport au code du travail.

N'oubliez pas d'intégrer les dispositions purement "logistique" telles que la mise à disposition de locaux, bureaux, téléphones, ordinateur, connexions réseaux, etc.

4.1.4.1. Habilitation

Les personnes habilitées doivent être identifiées en amont de la crise, cela tombe sous le sens. Car dans l'hypothèse d'un sinistre, certaines personnes devront non seulement avoir accès aux locaux distants, au téléphone, mais aussi accéder aux librairies de sauvegarde, aux applications, aux accès d'administration pour reconfigurer un logiciel, etc.

4.1.4.2. Formation

Durant toutes les phases de mise en place du PCA il est indispensable de vous assurez que les équipes comprennent l'importance de leur rôle dans l'exécution du plan. A ce titre il est nécessaire d'une part de les  sensibiliser aux enjeux du Plan de Continuité, et d'autre part de former les équipes qui assureront la reprise.

4.1.4.3. Cellule de crise

La cellule de crise est constituée en amont de l'occurrence du sinistre. Veillez à la maintenir à jour au grès du turn-over par exemple.

La cellule doit être constituée de managers, y compris de la direction, de la direction technique, logistique, etc. Selon les risques et services identifiés comme prioritaire lors de l'analyse des risques.

La cellule de crise doit inclure des dispositions concernant la communication vers l'extérieur, afin d'assurer un relai vers les parties prenantes, clients, actionnaires, presses, etc.

Une liste nominative doit être dressée et communiquée, et doit contenir les numéros de téléphone, email, etc. à contacter en cas de crise.

4.1.4.4. Contrats de travail

L'hypothèse de la survenance d'un sinistre peut vous amener à modifier momentanément la durée légale de travail de vos collaborateurs. Il faut donc vous prémunir juridiquement de cet écart en précisant par exemple dans vos contrats que les collaborateurs pourraient être amenés, le cas échéant, à travailler davantage.

La cellule de crise doit être suffisamment "staffée" pour permettre l'exécution du plan de reprise, et de retour à une situation nominale.

4.2. Plan de reprise

C'est l'exécution du dispositif lors de l'occurrence du sinistre.

Le plan de reprise permet de relancer l’activité selon des modalités définies lors de la constitution du plan de sauvegarde. Il se situe dans le contexte du sinistre.

4.3. Plan de retour à la normale

Le plan de retour à la normale dresse la liste des opérations à réaliser pour revenir à la situation antérieure au sinistre. Selon les services qui ont été visés par le plan de reprise, il s'agira de remettre tous les services en lignes et accessibles.

4.4. Plans de test

Le principal facteur de succès du plan de continuité est le test. Le plan de test a pour objectif de valider que l'organisation, les procédures, les documents, etc. seront correctement ajustés pour que le plan soit une réussite. A cet effet le plan de test doit être réalisé régulièrement et dans des conditions proches de la "vraie vie".

Les changements organisationnels, techniques, etc. doivent être répercutés sur le plan afin d'en garantir l'exactitude.

Test théorique

Le test théorique est la première étape. Lorsque vous avez formalisé les dispositions du plan de reprise, il vous faut les tester, afin de vérifier si les étapes s'enchainent chronologiquement, si les procédures sont efficaces, si les documents sont complets, si les équipes sont formées, si les applications et serveurs sont prêts, etc.

Le test théorique est un test "papier" dans le sens ou il n'impacte pas les opérations et ne nécessite pas d'interruption de Services.

Pré-tests et tests partiels

Le pré-test est quant à lui un vrai test. Il peut soit concerner une partie des services éligibles dans votre plan de secours, soit une partie des dispositions de secours telle que la reprise de données par exemple.

Une approche judicieuse, en amont de plan complet, est de tester chacune des dispositions et de relever les dysfonctionnements le cas échéant. Ainsi vous pourrez ajuster les dispositions techniques et organisationnelles avant le test final.

Test complet

Le test dit "complet" est comme son nom l'indique complet. C'est à dire qu'il a pour but de valider que le plan de continuité sera réalisé dans les conditions réels de sinistre. Si il est difficile de le mettre véritablement en œuvre c'est toutefois la seule garantie que vous aurez quant à son adéquation le jour "j".

4.5. Plan de maintenance

Dès lors que vous avez réalisé toutes ces étapes, le travail n'est hélas pas terminé. En effet les organisations sont en perpétuelles évolutions. Nouveaux services/produits, nouvelles organisations, nouvelles équipes, nouveaux logiciels, nouveaux sites, etc.

Autant de paramètres qu'il va falloir surveiller de près et surtout intégrer au dispositif de continuité d'activité. A ce titre vous devrez probablement réaliser une nouvelle itération de l'analyse des risques, puis des modifications du PCA, et enfin pratiquer de nouveaux tests.