Statistiques inférentielles et autonomie de développement en Python 3.8

Comprendre les sources du réchauffement climatique avec les bases de données Wooldridge, par Louis Brulé Naudet.

Recommandations

Test de compatibilité réalisé avec Python 3.8, exécuté sur les environnements MacOS 11.3 et Linux Ubuntu Serveur 20.04 LTS.

Librairies utilisées : Numpy, Pandas, Bokeh, SciPy.

Installation des modules nécessaires à l’exécution.

Afin de rendre le programme exécutable avec le minimum d’interventions humaines, et optimiser son déploiement sur serveur, une autonomie de mise à niveau, de téléchargement des données et de gestion des exceptions a été implémentée, notamment au sein de la classe serveur_SMTP.

classe serveur_SMTP, permettant l'envoi automatique de mails depuis un ordinateur distant.

Le code source va d’abord observer la présence des librairies nécessaires à son exécution, puis, les télécharger en cas d’absence afin de mettre automatiquement à jour la configuration logicielle de l’environnement d’exécution. Sur le même paradigme, une copie de la base de données sera téléchargée depuis le site internet louisbrulenaudet.com, afin d’éviter les conflits relatifs à la rédaction des chemins d’accès sur les différentes machines, via une inflexion de la vérification des certificats SSL.

Téléchargement de la base de données depuis le site https://louisbrulenaudet.com

Analyse descriptive des variables

Afin de simplifier la lecture du code source, nous créons une fonction de centralisation des sous blocs d’instructions permettant les différents calculs de dispersion et de position.

Première interprétation possible, on retient que la moyenne est quasi-systématiquement supérieure à la médiane de chaque série, tel est le cas pour l’émission totale de CO2 dans le monde, ou la variable expliquée : la température moyenne (distribution majoritairement dissymétrique à droite). Deuxième observation, les émissions de CO2 venant de la production de ciment et du brûlage sont substantiellement plus faibles en niveau que celles de la production de gaz, de pétrole ou de charbon. Plus précisément, les émissions de CO2 provenant ces deux derniers facteurs sont les plus importantes connues dans le cadre de notre base de données. Pragmatiquement, et pour accroitre l’expérience utilisateur, par la fourniture de graphiques interactifs en HTML/JavaScript, l’ensemble des représentations sont accessibles en ligne. Ainsi, une mise en lumière de la variation au cours du temps des variables explicatives et de la variable expliquée est disponible en cliquant ici (Page à défilement vertical). La représentation graphique corrobore nos intuitions, et on observe une croissance globale de toutes les variables explicatives et de la variable expliquée au cours du temps, hormis pour les émissions de CO2 issues du brulage et sensiblement pour celles issues de la production de ciment. On observe une croissance quasi-linéaire de la consommation d’énergies primaires, et un peu plus irrégulière pour les émissions totales de CO2. La variable expliquée présente une croissance indéniable sur le long terme, mais davantage discutable sur le moyen terme (à l’échelle d’une demie-décennie).

Afin de limiter l’utilisation de libraires, la totalité des analyses statistiques ont été développées à partir de blocs d’instructions propriétaires. Par définition, la variance empirique d’une série statistique est cependant biaisée car :

Toutefois, si n>1, par linéarité de l’espérance, la variance estimée obtenue en multipliant la variance mesurée sur l’échantillon par :

Est un estimateur convergent et sans biais de sigma carré. Ainsi, les formules appliquées dans le code source sont respectivement :

On observe des valeurs d’écarts-types relativement importantes pour toutes les variables explicatives, à l’exception des émissions de CO2 issues du brulage et de la production de ciment, synonymes d’une dispersion d’ampleur entre les valeurs de chaque échantillon, affirmant ainsi l’absence de constance au cours du temps et la tendance à la variation (croissance obtenue par analyse graphique).

Corrélations et régression linéaire simple

Pour la suite de nos travaux, on cherche à contredire la présomption d’indépendance entre les variables explicatives et la variable expliquée, afin de réaliser un ajustement affine approchant au mieux chaque nuage de points dans le plan.

Première observation, la corrélation de Pearson (grandeur adimensionnelle), forme normalisée de la covariance, permettant de quantifier les écarts conjoints de deux variables par rapport à leurs espérances respectives, est relativement importante pour l’ensemble des variables explicatives déjà évoquée, et, à l’inverse, faible pour les émissions de CO2 issues du brulage. Toutefois, aucune variable ne présentant un coefficient de corrélation inférieur à 0,1, on peut estimer qu’elles sont toutes plus ou moins sources de dépendance pour la variable expliquée. L’émission globale de CO2 et la consommation d’énergies primaires étant les deux variables explicatives les plus corrélées à la température. La régression éprouvée dans notre analyse repose sur la méthode des moindres carrés ordinaires, à savoir, la minimisation de la somme des carrés des résidus entre chaque point du nuage de régression et son projeté. Ainsi, le modèle de régression simple cherche à établir une relation linéaire entre deux variables par définition des meilleurs estimateurs sans biais du vecteur des coefficients β.

Le coefficient β1 s’interprète comme l’effet marginal d’une unité supplémentaire de de variable explicative sur la variable expliquée. Dans le cas d’une régression linéaire univariée, le R-carré se définit comme le rapport de la variance expliquée par la régression SSE sur la variance totale SST, et mesure la proximité des données à la droite de régression ajustée. Ainsi, un coefficient de détermination proche de 1 indiquera que le modèle explique toute la variabilité des données de réponses autour de la moyenne, et à l’inverse, un coefficient réduit présentera la régression comme non explicative de la dépendances entre les variables. Dans notre étude, on observe que le coefficient ajusté le plus significatif est celui de la régression de la température sur les émissions de CO2 liées à la production de gaz. Ce résultat confirme une fois de plus nos suppositions. Une anomalie que nous pouvons chercher à expliquer, serait le faible coefficient de corrélation associé aux émissions de CO2 issues de la production de pétrole. Graphiquement, on observe que la distribution se rapprocherait d’une fonction exponentielle, ce qui expliquerait l’inadéquation avec la définition même de la régression linéaire. Dans le cadre de ce raisonnement, l’ensemble des régressions sont disponibles en cliquant ici. Une autre observation concernerait le coefficient β1 associé aux émissions de CO2 produites par le brulage. Certes, celui-ci est remarquablement élevé relativement par rapport aux autres, toutefois, le très faible coefficient de détermination nous indique un défaut de significativité de la régression. Cette critique se retrouve mathématiquement par la valeur relativement plus grande de l’erreur standard et de la valeur-p. Quantification de la significativité statistique, sa valeur proche de 0,05 présente que le même résultat serait probable si l’hypothèse nulle était vérifiée. Contrairement à cette variable, toutes les autres régressions sont statistiquement significatives au regard de la valeur-p. Concernant la statistique-t, on retrouve nos intuitions, à savoir, en écartant l’anomalie des émissions de CO2 issues de la production de pétrole, que les régressions les plus significatives résultent de la production de gaz, de la consommation d’énergies primaires et de l’émission totale de CO2.

L’immense défaut de la régression linéaire simple se retrouve dans l’existence de biais de variables omises. Ainsi, en plus de la simultanéité, la corrélation entre les variables explicatives et le terme d’erreur peut survenir quand une variable omise agit à la fois sur la variable expliquée et sur une (ou des) variable(s) explicative(s). Cela nous permettrait d’expliquer nos anomalies. Une des méthodes permettant de limiter ce biais serait l’introduction de plusieurs variables explicatives au sein d’une régression linéaire multiple. Pour se faire, nous avons commencé par normaliser les données afin d’éviter tout impact négatif sur les performances de l’algorithme de descente en gradient. Les valeurs de la température moyenne pouvant être négatives, nous n’appliquons pas une transformation logarithmique mais standard, à savoir :

Cette mise à l’échelle nous permet alors de compenser les importantes différences de niveaux entre chaque type d’émission.

Corrélations et régression linéaire multiple

L’algorithme de descente de gradient vise à l’optimisation différentiable. Il est par conséquent destiné à minimiser une fonction réelle différentiable définie sur un espace euclidien. L’algorithme est itératif et procède donc par améliorations successives, jusqu’à la convergence. On cherche alors à minimiser le gradient, généralisation multidimensionnelle de la dérivée. Le coefficient d’apprentissage sera défini comme un paramètre qui permet de moduler la correction, et par extension, la vitesse de convergence. Dans le cadre de notre modèle, on retrouve :

Afin d’optimiser la détermination du coefficient d’apprentissage α et des coefficients β de la régression, sera générée une liste de valeurs possibles avec itération sur chacune des valeurs, afin de ne conserver que le coefficient de détermination le plus élevé pour la régression multiple.

Empiriquement, on retrouve un R-carré de 0.900927, ce qui confirme notre suggestion de biais de variables omises. En effet, jamais avec une régression linéaire simple, nous n’avons obtenu un résultats aussi élevé pour cette statistique.

Projections sur le moyen et long terme

Partant de ce constat, nous pouvons établir des projections sur la valeur de la température moyenne sur le moyen et long terme en effectuant des variations toutes choses étant égales par ailleurs, sur chaque variable, à la hausse comme à la baisse. Ainsi, nous pourrons établir quelles mesures mettre en oeuvre dans une perspective de réduction de la température globale. Pour notre analyse, nous avons décidé d’effectuer des variations à la hausse comme à la baisse de respectivement 5%, 10%, 25%, 50%, 100% et 200%, sur la base de la dernière valeur connue pour chaque variable dans notre base de données.

On observe que sur le court et le moyen terme, les effets sont ambigus, toutefois, sur le long terme, on retrouve le fait qu’une augmentation importante des émissions de CO2 issues de la production de pétrole, de gaz et de ciment, influent significativement sur la température moyenne. La question du ciment n’était pas abordée au début de notre propos, mais cette découverte résonne particulièrement bien avec le niveau relatif du β1 associé à la régression linéaire simple et son coefficient de détermination. Elle semble même être la deuxième source principale d’émission de CO2 à long terme, si son augmentation se présente comme très importante. On explique cet impact par deux éléments : la fabrication du clinker en cimenterie nécessite la décarbonatation du calcaire, forme la plus stable du calcium dans la nature, et sa cuisson en présence de silice.

Ainsi, une des hypothèses pour la réduction de l’émission globale de CO2, qui semble éminemment corrélée avec la hausse de la température moyenne, serait de promouvoir l’utilisation de combustibles alternatifs non carbonatés en substitution des combustibles fossiles. Le gaz naturel doit subir un traitement consistant à éliminer les éléments corrosifs, à l’instar du souffre, ces procédés sont autant d’éléments participant à l’émission de CO2 dans l’atmosphère. Une alternative serait par exemple l’utilisation de granulés de bois pour le chauffage domestique, ou de pompes à chaleur. Toutefois, une solution permettant un parfait arbitrage entre confort de vie et réduction des émissions issues du gaz semble difficilement trouvable. En effet, il semble utopique de ne pouvoir se chauffer qu’à l’électrique, avec une source d’électricité totalement renouvelable comme l’éolien. Malgré tout, il reste indéniable que la production électrique par fission de l’atome semble une des solutions les moins polluantes en terme de dioxyde de carbone. Elle se présente même comme une meilleure alternative au photovoltaïque, qui, avec une production entre 100 et 200 g de CO2/kWh, excède du triple celle du nucléaire. Enfin, et conformément aux directives publiques en voie d’application dans les pays d’Europe occidentale, la réduction des émissions induites par la production de pétrole semble être un axe d’amélioration majeur pour la réduction de la température globale. On retrouve alors le même problème que le gaz, à savoir, comment trouver un système accessible aussi polyvalent et performant que le pétrole, tout en réduisant la production de gaz à effet de serre ?

Photo by L.W. on Unsplash

La proposition de l’électrique revient alors comme solution miracle à l’exception près de son stockage, nécessitant l’utilisation de batteries au lithium, métal alcalin difficilement recyclable à moindres coûts de nos jours. Dans le secteur des transports, l’hydrogène semble également être une perspective de développement interessante, au même titre que les biocarburants, produits à partir de matériaux organiques. Notre régression multiple reste toutefois ambiguë sur les effets de la consommation d’énergies primaires, ainsi que sur les effets de la production de charbon bien que son coefficient de détermination suggère une dépendance de la température globale. Concluons notre analyse par la réciproque de notre système de variations toute chose égale par ailleurs, en agissant négativement sur chaque variable. Utopiquement, les mesures que nous proposions nous permettraient effectivement de faire diminuer la température globale.

À noter : On retiendra toutefois comme origine des anomalies résultant de notre analyse, le possible biais de variables omises du à la faible largeur de la base de données d’origine. D’autres sources de gaz à effet de serre doivent exister, et l’on ignore pas la possibilité que la terre se réchauffe indépendamment de l’activité humaine.

Louis Brulé Naudet, titulaire d’une double licence en Droit et Économie/Gestion de l’Université Paris-Saclay.

Co-fondateur de Sparly et Lemone. Étudiant en Droit des affaires et fiscalité à l’Université Paris-Dauphine (PSL). ORCID : 0000-0001-9111-4879

Co-fondateur de Sparly et Lemone. Étudiant en Droit des affaires et fiscalité à l’Université Paris-Dauphine (PSL). ORCID : 0000-0001-9111-4879