La causalité : un prérequis pour faire parler la data

11 juin 2024

Tout est intrinsèquement lié : l’efficacité des processus repose sur une combinaison de facteurs qui s’influencent les uns les autres (ex : qualité des matières en entrée ou en sortie, énergie utilisée, débit des matières, etc.). Ces interactions mutuelles rendent les simulations d’impact basées uniquement sur des statistiques difficiles, voire impossibles, sans une maîtrise des mathématiques de la causalité.

Les mathématiques de la causalité offrent aux entreprises un outil puissant pour explorer ces relations. En comprenant finement les relations de cause à effet, elles peuvent tester de manière impartiale l’impact économique de leurs modifications de paramètres de processus. Par exemple, si elles augmentent l’apport énergétique de leurs fours d’électrolyse de 1 kW, comment cela affectera-t-il la qualité du silicium produit ? Et si elles réduisent le débit des matières premières de 1 m³/minute ? Ces questions cruciales nécessitent une approche basée sur la causalité.

Sans ces mathématiques, leurs prévisions risquent d’être imprécises, et leurs décisions industrielles pourraient ne pas être optimales. La maîtrise des mathématiques de la causalité permet de naviguer dans ce réseau complexe et de prendre des décisions éclairées pour améliorer les processus.

 

Les Bénéfices de la Causalité : Confiance, Précision et Analyse Rigoureuse

 

  1. Tester des scénarios de processus en toute confiance lorsque les causes et les effets s’entremêlent
    (« effet spaghetti »),
  2. Valoriser économiquement vos actions avec précision grâce à une approche mathématique rigoureuse,
  3. Tirer enfin des enseignements de vos données de processus et aller au-delà des « corrélations » trompeuses.

La causalité est essentielle dans l’analyse des données, car elle permet de comprendre les relations entre les différentes variables d’un ensemble de données. En particulier, elle permet de déterminer si un changement dans une variable entraîne un changement dans une autre variable, ou si les deux variables sont simplement associées sans relation de cause à effet.

En comprenant la causalité, les Métiers peuvent prendre des décisions plus éclairées basées sur leurs données. Par exemple, s’ils identifient une relation de cause à effet entre deux variables, ils peuvent utiliser cette information pour prédire l’impact d’un changement d’une variable sur une autre. Cette approche est particulièrement utile dans des domaines tels que le développement commercial, où l’identification des relations causales peut vous aider à élaborer de nouvelles stratégies.

 

Ne pas tenir compte de la causalité peut en effet conduire à des conclusions erronées ou trompeuses. Lorsque deux variables sont simplement corrélées sans relation de cause à effet, il peut être inefficace, voire nuisible, de tenter de manipuler l’une d’entre elles pour influer sur l’autre.

L’illustration ci-dessous, extraite de l’ouvrage « Causal Inference in Statistics » de Judea Pearl, Madelyn Glymour et Nicholas P. Jewell, met en évidence l’effet causal de l’âge sur le cholestérol et l’exercice quotidien. Cette compréhension approfondie des relations de cause à effet modifie complètement l’histoire sous-jacente dans les données.

Il est donc crucial d’intégrer la causalité dans nos analyses pour prendre des décisions éclairées et éviter les pièges des simples corrélations.

Corrélation trompeuse : « Je devrais arrêter de faire du sport».

 

 

Conclusion avec la causalité à l’œuvre : « Je devrais faire de l’exercice ! » (Prise en compte de l’âge comme cause partagée).

 

La nécessité d’une histoire causale claire

Cependant, l’estimation des relations de cause à effet à partir d’un seul ensemble de données peut s’avérer difficile et, dans de nombreux cas, impossible en l’absence d’une histoire causale claire. Les effets causaux sont définis comme la variation d’une variable de résultat qui peut être attribuée à une variation spécifique d’une variable d’entrée. Les relations entre les variables observées dans les données peuvent être déterminées par des facteurs non mesurés ou des variables sous-jacentes qui ne sont pas prises en compte dans l’analyse.

Prenons l’exemple d’une étude examinant la relation entre l’éducation et le revenu. La corrélation observée entre ces deux variables peut ne pas être causale. Elle peut être influencée par des variables non observées, telles que les capacités innées, la motivation ou le milieu familial, qui ont également un impact sur l’éducation et le revenu. En l’absence d’un récit causal tenant compte de ces variables non observées, il est difficile d’estimer le véritable effet causal de l’éducation sur le revenu.
Par conséquent, il est essentiel de développer une histoire causale claire pour estimer les effets causaux avec précision. Cela implique souvent des connaissances théoriques et contextuelles au-delà de l’ensemble de données lui-même.

 

L’inférence causale : découvrir les relations causales dans un monde complexe

 Ces dernières années, un nouveau domaine des mathématiques, appelé inférence causale, a émergé. Il fournit des outils et des techniques pour mesurer les effets causaux des variables. Ce domaine combine des principes issus des statistiques, de l’apprentissage automatique et de la philosophie pour développer des méthodes rigoureuses d’estimation des relations causales à partir de données d’observation.

Les méthodes d’inférence causale sont conçues pour tenir compte des variables connues, des biais de sélection et d’autres sources de biais susceptibles d’être présentes dans les données. Cela permet aux chercheurs de réaliser des estimations plus précises et plus exactes des effets causaux. Ces méthodes trouvent des applications dans un large éventail de domaines, notamment la médecine, la politique publique, l’économie et les sciences sociales.

En utilisant des méthodes d’inférence causale, les chercheurs peuvent prendre des décisions plus éclairées, développer des interventions plus efficaces et faire progresser la compréhension du monde qui nous entoure. Le développement de ce nouveau domaine constitue donc une avancée considérable dans notre capacité à utiliser les données pour découvrir les relations causales et donner un sens aux systèmes complexes dans lesquels nous vivons.

 

La causalité et les contrefactuels : une révolution pour la compréhension de vos données

L’analyse de la causalité et le calcul des contrefactuels sont des éléments essentiels pour tirer des enseignements à partir de vos données. Ils permettent d’explorer des scénarios hypothétiques en modifiant les paramètres et en évaluant les résultats contrefactuels. Voici quelques exemples concrets :

  • Programme de formation professionnelle : En utilisant les contrefactuels, nous pouvons estimer combien de personnes inscrites à un programme de formation professionnelle auraient obtenu un emploi même si elles ne s’étaient pas inscrites. Cela nous permet d’évaluer l’efficacité réelle du programme.
  • Choix de traitement médical : Pour un patient atteint de cancer, les contrefactuels nous aident à déterminer quel résultat aurait été obtenu s’il avait choisi un autre traitement. Cela permet d’évaluer l’impact des décisions médicales sur les résultats des patients.
  • Qualité des produits manufacturés : Imaginons que les réglages d’une usine aient été différents. Les contrefactuels nous permettraient de prédire la qualité des produits finis dans ce scénario alternatif. Ainsi, nous pouvons mesurer l’efficacité réelle des réglages existants et identifier d’éventuelles améliorations.

En somme, les contrefactuels nous aident à aller au-delà des analyses statistiques de base, à identifier les gains potentiels et à minimiser les pertes.

 

La causalité présente cependant des limites :

  • Impossibilité mathématique : graphique de causalité cyclique (effet de boucle) ou mesures non disponibles pour les paramètres critiques (variables dites « portes dérobées » ou « frontales »).
  • Imprécisions dans les prédictions : Manque de données suffisantes ou Données suffisantes mais manque de variabilité.

SpinPart accompagne ses clients dans la structuration, la maîtrise et l’usage de la causalité, et à travers le pilotage de la transformation auprès des différents métiers.

Vous avez des questions ?
Contactez Franck DANSAERT
franck.dansaert@spinpart.fr

Voir aussi

Le « Diable » est dans la Moyenne : Comprendre l’Importance des Moyennes dans les Prévisions et les Business Plans

13 septembre 2024

Dans le monde des affaires, l’élaboration de prévisions et de business plans est une étape cruciale pour […]

> Lire la suite

Adieu à la créativité avec l’IA générative : en sommes-nous si sûrs ?

18 juin 2024

Récemment, un dessin sur les réseaux sociaux a attiré mon attention et m’a poussé à réfléchir. Il […]

> Lire la suite

Open data dans les transports : à qui profite la transparence ?

24 novembre 2018

L’origine du mouvement « open data » se situe dans les milieux scientifiques, où des chercheurs ont voulu créer […]

> Lire la suite