Les détails de l’incident
- Origine du problème : La panne a été causée par un défaut dans le logiciel de test de CrowdStrike. Malgré des données problématiques, une mise à jour a été validée et déployée sur des millions d’ordinateurs Windows. Le résultat ? Une catastrophe mondiale.
- Réaction de CrowdStrike : Face à la crise, CrowdStrike a fourni des explications. L’entreprise a annoncé qu’elle déploierait désormais les mises à jour progressivement pour détecter les problèmes avant qu’ils ne se propagent à grande échelle. Cependant, cette réponse est-elle suffisante pour atténuer les conséquences de l’incident ?
- Responsabilité et précédent OVH : Malgré les pertes subies par les entreprises touchées, CrowdStrike a été considérée comme minimement responsable des dommages causés. Cela soulève des questions importantes sur la responsabilité des entreprises de cybersécurité lorsqu’une mise à jour provoque une panne mondiale. Le précédent OVH, où l’hébergeur français a été tenu partiellement responsable d’un incendie majeur dans son datacenter, pourrait-il influencer la décision concernant CrowdStrike ? Un professionnel répond par l'affirmative.
Les arguments avancés
OVH est un fournisseur français de centres de données et de cloud, prétendument le plus grand fournisseur d'hébergement en Europe. Il est surtout connu pour fournir des serveurs physiques et des machines virtuelles, ainsi qu'une variété de services en nuage. Le 10 mars 2021, un incendie s'est déclaré dans les locaux de la SGB. Il a brûlé deux centres de données SGB1 SGB2 avec peu ou pas de récupération et a rendu deux autres centres de données SGB3 SGB4 inopérants pendant un certain temps.
Ce qui est intéressant, c'est la suite des événements. Plusieurs sites ont été détruits, entraînant une perte irrémédiable de services et de données pour leurs clients. Plusieurs clients les ont poursuivis en justice pour obtenir des dommages et intérêts et ils ont gagné.
J'ai trouvé qu'il y avait quelques points intéressants soulevés et discutés par la cour :
- Il y a eu une perte totale de service pendant et après l'événement.
- Il y a eu une perte totale et irrémédiable de données après l'événement.
- OVH fournissait un service de sauvegarde pour ses machines et ses services.
- Perte totale et irrévocable des sauvegardes après l'événement.
- Il y avait plusieurs centres de données dans des endroits proches, comme c'est la pratique courante pour assurer une certaine résilience : SGB1 SGB2 SGB3 SGB4
- Plusieurs centres de données ont brûlé en même temps.
- Les multiples centres de données se trouvaient en fait au même endroit, à quelques pas l'un de l'autre. Cette situation a été jugée inattendue et non raisonnable par le tribunal.
- Les sauvegardes étaient stockées dans le même centre de données ou dans l'autre centre de données qui pouvait se trouver au même endroit. Cela n'a pas été considéré comme raisonnable par le tribunal.
- OVH a tenté de faire valoir que les clients auraient dû suivre la bonne pratique consistant à disposer de plusieurs sauvegardes dans des lieux distincts. Le tribunal a reconnu qu'il s'agissait d'une bonne pratique.
- Le tribunal a déterminé qu'OVH était le fournisseur de sauvegardes et qu'il lui incombait de fournir des sauvegardes d'un niveau raisonnable et de respecter les bonnes pratiques. Cela inclut le stockage d'une copie de la sauvegarde ailleurs, comme le veut la bonne pratique.
- Le tribunal a jugé que le service de sauvegarde d'OVH n'était pas exploité selon des normes raisonnables et qu'il n'avait pas atteint son objectif.
Je trouve cela intéressant pour les techniciens, la cour jugera votre technologie et ce qui peut vraiment être considéré comme les meilleures pratiques. C'est comme l'ultime examen du code.
Pour résumer comment les choses fonctionnent : préjudice causé + intention de causer un préjudice ou négligence = possibilité de dommages-intérêts.
Un préjudice important a été causé aux clients, car des entreprises entières ont été fermées, souvent pour une durée indéterminée, avec une perte totale de données et sans possibilité de récupération. Il existe de nombreuses occurrences de négligence, d'erreurs ou de pratiques douteuses dans la manière dont OVH exploitait le service, ce qui a conduit au problème. Il s'agit d'un dossier solide. De nombreux clients ont ouvert un dossier contre OVH et ont obtenu gain de cause. Il est possible que d'autres dossiers soient encore en cours de traitement.
Cela nous amène à CrowdStrike. Les similitudes sont frappantes !
À propos de CrowdStrike
CrowdStrike est un logiciel antivirus installé sur les ordinateurs. Il est parfois appelé EDR (Endpoint Detection and Response) de nos jours. Il est principalement installé sur les appareils des grandes entreprises, qui sont tenues de disposer d'une solution de sécurité.
CrowdStrike s'exécute au démarrage de l'ordinateur. Il s'intègre profondément dans le système d'exploitation (Windows ou Linux) au niveau du noyau, pour s'exécuter dès que possible et avant que d'autres choses ne démarrent. Il surveille ce qui s'exécute, il peut bloquer et signaler tout ce qu'il juge suspect.
Le 19 juillet 2024, CrowdStrike a publié une mise à jour de son logiciel. La mise à jour était boguée et faisait planter tous les ordinateurs sur lesquels elle était déployée. Des millions d'ordinateurs ont reçu simultanément la mise à jour à travers le monde et ont été rendus non fonctionnels.
Les clients subissent un préjudice important. Des entreprises ont été partiellement ou totalement fermées, pendant des jours ou des semaines. Il y a eu plusieurs cas de négligence, d'erreurs et de pratiques douteuses dans la manière dont CrowdStrike exploitait le service, ce qui a conduit au problème. Il ne s'agit pas d'un incident isolé, puisque des personnes ont signalé que la même chose s'était produite quelques semaines auparavant, à une moindre échelle.
La responsabilité de CrowdStrike devrait donc être engagée et donner lieu à d'innombrables demandes de dommages-intérêts.
Les points saillants qu'il a utilisé pour parvenir à cette conclusion
Voici quelques éléments qu'il a évoqué :
- D'après les discussions en ligne, les clients des hôpitaux se sont déjà plaints de ce problème et ont demandé à CrowdStrike de permettre un certain contrôle sur les mises à jour. Un client a indiqué qu'il avait reçu un mémo de 50 pages de CrowdStrike disant qu'il refusait de mettre en place quoi que ce soit.
- La mise à jour a fait planter tous les ordinateurs sur lesquels elle a été déployée (BSOD).
- Il ne s'agit pas d'un incident isolé. La même chose s'est produite quelques semaines plus tôt avec l'agent CrowdStrike sur Linux, détruisant le système, et il y a peut-être eu d'autres incidents auparavant.
- Tous les ordinateurs ont été rendus inopérants par CrowdStrike, incapables de démarrer.
- Pour les entreprises concernées, cela signifiait que tous leurs employés se retrouvaient avec un ordinateur mort, incapable de faire quoi que ce soit.
- Les utilisateurs ne pouvaient pas « accéder » à l'ordinateur pour déposer un ticket ou le dépanner.
- Il s'agissait d'une perte totale de service, sans possibilité de récupération.
- L'un des moyens de réparer l'ordinateur consistait à confier l'ordinateur à l'équipe informatique et à le réinstaller complètement (réimage).
- Un autre moyen, découvert plus tard dans la journée, consistait pour un administrateur à accéder physiquement à l'ordinateur ET à essayer de démarrer en mode sans échec ou en mode de récupération, puis à supprimer le fichier du pilote de CrowdStrike.
- Cette correction ne peut être effectuée qu'avec un accès physique à l'ordinateur concerné ET par un administrateur disposant d'un mot de passe spécial (ou d'une clé USB contenant le mot de passe) pour démarrer un ordinateur portable en mode de récupération.
- Il faudra des semaines aux entreprises concernées pour mettre la main sur chaque appareil, ordinateur portable, ordinateur de bureau et serveur. Il peut s'agir de milliers, voire de centaines de milliers d'appareils.
- Cela prendra plus de temps pour les appareils qui sont enfermés ou difficiles d'accès, comme les terminaux d'écran dans un aéroport, les appareils médicaux et les machines dans un hôpital, les panneaux d'ascenseurs.
- Il peut être impossible de restaurer l'appareil s'il est verrouillé d'une manière ou d'une autre (blocage physique ou mot de passe de récupération inconnu).
- Les employés qui ont besoin d'un ordinateur pour travailler ne peuvent pas travailler pendant tout ce temps.
- Il n'est pas possible de fournir un ordinateur de rechange aux utilisateurs concernés, car les ordinateurs de rechange ont également été touchés par le problème.
Les limites de son raisonnement
Cet avis ne fait pas l'unanimité.
Un autre professionnel souligne que la responsabilité d'OVH a été engagée en raison de la perte de données et non de l'interruption du service. La perte de données est quelque chose d'irrémédiable, de permanent, de définitif. Certaines entreprises ont été pratiquement ruinées par cet incident parce qu'elles n'avaient plus de données pour fonctionner. Pour ne rien arranger, elles ont vendu des sauvegardes hors site dans le centre de données situé littéralement à quelques mètres de là. Une interruption de service, eh bien, ça arrive, et c'est géré par des contrats de niveau de service (SLA) que les deux parties acceptent. On ne ruine pas une entreprise (lire : on ne ferme pas une entreprise) pour quelques jours de panne.
Je doute que CrowdStrike soit tenu responsable de beaucoup de choses, du moins de la part des entreprises. Ils ne peuvent pas rembourser les dommages causés, autrement ils seraient poussés à fermer boutique. Le secteur des soins de santé est une autre paire de manche, mais je pense qu'il y aura davantage de réglementations pour les entités critiques.
Source : The HFT Guy
Et vous ?
Analyse de l'opinion : Partagez-vous ce point de vue ? CrowdStrike devrait-il / pourrait-il être tenu pour responsable des dommages subis dans votre pays ? Dans quelle mesure ? Si oui, à quelle hauteur (totalement ou partiellement) ?
Responsabilité des entreprises de cybersécurité : Devrions-nous exiger davantage des entreprises comme CrowdStrike lorsqu’elles introduisent des mises à jour ? Comment pouvons-nous équilibrer l’innovation avec la sécurité ?
Amélioration des processus de test : Comment les entreprises peuvent-elles améliorer leurs processus de test et de validation des mises à jour pour éviter de tels incidents à l’avenir ?
Conséquences pour les utilisateurs et les entreprises : Quelles sont les conséquences réelles pour les utilisateurs et les entreprises touchés par une panne informatique mondiale ? Comment pouvons-nous mieux nous préparer à de telles situations ?
Éthique de l’intelligence artificielle : L’incident de CrowdStrike soulève également des questions plus larges sur l’impact de l’IA sur notre société. Comment pouvons-nous garantir que les avancées technologiques ne nuisent pas aux utilisateurs ?