Statistiques bayésiennes modernes pour les actuaires
par Alec Loudenback
Gestion du risque, octobre 2023
L’un des premiers théorèmes probabilistes que nous apprenons est le théorème de Bayes, mais celui-ci est visiblement absent de la plupart des applications et de la pratique parce qu’outre des exemples de présentation sans intérêt (« vous avez reçu un test positif pour une maladie ... »), le théorème de Bayes devient insoluble et compliqué pour calculer la distribution a posteriori. Les progrès modernes en matière de puissance informatique, d’algorithmes et de bibliothèques libres ont permis de commencer à appliquer le théorème le plus puissant à des problèmes beaucoup plus complexes.
Grâce à ce progrès, les actuaires peuvent maintenant appliquer ces techniques à des problèmes d’une manière souple et fondée sur des principes pour mieux comprendre le niveau d’incertitude que nous l’avons fait auparavant en examinant explicitement la distribution a posteriori des paramètres de notre modèle.
Qu’est‑ce que la statistique bayésienne moderne?
Un modèle statistique bayésien comporte quatre composantes principales à retenir :
- Les hypothèses d’encodage a priori au sujet des variables aléatoires liées au problème en cause, avant le conditionnement des données.
- Un modèle qui définit comment les variables aléatoires donnent lieu au résultat observé.
- Les données que nous utilisons pour mettre à jour nos hypothèses antérieures.
- Les distributions a posteriori de nos variables aléatoires, conditionnées par les données observées et notre modèle.
Après avoir défini les deux premières composantes et recueilli nos données, le plan de travail consiste à échantillonner par calcul la distribution a posteriori, souvent au moyen d’une technique appelée la méthode de Monte-Carlo par chaîne de Markov (MCCM). Le résultat est une série de valeurs échantillonnées statistiquement à partir de la distribution a posteriori.
Avantages de l’approche bayésienne
Les principaux avantages de cette approche par rapport aux techniques actuarielles traditionnelles sont les suivants :
- Concentration sur les distributions plutôt que sur les estimations ponctuelles de la moyenne ou du mode a posteriori. Nous nous intéressons souvent à la distribution des paramètres et l’accent mis sur une seule estimation des paramètres sous-estime la distribution des risques.
- Souplesse du modèle. Un modèle bayésien peut être aussi simple qu’une régression linéaire ordinaire, mais aussi complexe que la modélisation d’un rouage d’assurance complet.
- Modèle mental plus simple. Fondamentalement, le théorème de Bayes pourrait être réduit à une approche selon laquelle on compte les façons dont les choses peuvent se produire et l’on met à jour les probabilités en conséquence.
- Hypothèses explicites. Le dénombrement des variables aléatoires dans votre modèle et le paramétrage explicite des hypothèses antérieures permettent d’éviter l’ambiguïté des hypothèses du modèle statistique.
Défis liés à l’approche bayésienne
En vertu de l’approche bayésienne, certains éléments posent problème. Bon nombre des éléments énoncés ne sont pas propres à l’approche bayésienne, mais les enjeux comportent différentes facettes.
- Construction du modèle. – Il faut bien réfléchir au modèle et à l’interaction des variables. Toutefois, grâce à la souplesse de la modélisation, on peut appliquer la science (actuarielle) pour construire de meilleurs modèles!
- Diagnostics du modèle. – Plutôt que les valeurs du coefficient de détermination R², il convient de surveiller des diagnostics uniques pour s’assurer que l’échantillonnage a posteriori a fonctionné comme prévu.
- Complexité du modèle et taille des données. – Les algorithmes d’échantillonnage nécessitent beaucoup de calculs – à mesure qu’augmentent la quantité de données et la complexité du modèle, l’exécution exige le calcul en grappes.
- Représentation du modèle. – Le calcul statistique de la variable a posteriori ne peut refléter que la complexité du monde telle que définie par votre modèle. Un modèle bayésien ne déduit pas automatiquement toutes les relations et contraintes réelles possibles.
Pourquoi maintenant?
Il y a des raisons à la fois philosophiques et pratiques pour lesquelles l’analyse bayésienne change rapidement le paysage statistique.
Sur le plan philosophique, l’une des principales raisons pour lesquelles la pensée bayésienne est attrayante est sa capacité de fournir une interprétation simple des conclusions statistiques.
Par exemple, lorsque l’on estime une quantité inconnue, un intervalle de probabilité bayésien peut être directement compris comme ayant une forte probabilité de contenir cette quantité. Par contre, un intervalle de confiance fréquentiste n’est habituellement interprété que dans le contexte d’une série d’inférences similaires qui pourraient être faites dans une pratique répétée. Ces dernières années, on a mis de plus en plus l’accent sur l’estimation par intervalle plutôt que sur les tests d’hypothèses dans les statistiques appliquées. Ce changement a renforcé la perspective bayésienne puisqu’il est probable que de nombreux utilisateurs des intervalles de confiance standard les interprètent intuitivement d’une manière conforme à la pensée bayésienne.
Une autre façon significative de comprendre le contraste entre les approches bayésienne et fréquentiste consiste à recourir au prisme de la théorie décisionnelle, en particulier la façon dont chaque point de vue traite le concept de caractère aléatoire. Cette perspective se rapporte à la question de savoir si vous considérez que les données sont aléatoires ou si ce sont les paramètres qui sont aléatoires.
Les statistiques fréquentistes traitent les paramètres comme fixes et inconnus, et les données comme aléatoires - cela reflète le point de vue selon lequel les données que vous recueillez ne sont qu’une réalisation d’un processus aléatoire infiniment reproductible. Par conséquent, les procédures fréquentistes, comme les tests d’hypothèse ou les intervalles de confiance, sont généralement fondées sur l’idée d’une fréquence à long terme ou d’un échantillonnage reproductible.
À l’inverse, les statistiques bayésiennes renversent cela en traitant les données comme fixes – après tout, une fois que vous avez recueilli vos données, ce n’est plus aléatoire, mais une quantité observée fixe. Les paramètres, qui sont inconnus, sont traités comme des variables aléatoires. L’approche bayésienne nous permet ensuite d’utiliser la probabilité pour quantifier notre incertitude au sujet de ces paramètres.
D’un point de vue pratique, l’approche bayésienne tend à s’aligner davantage sur notre façon intuitive de raisonner au sujet des problèmes. Souvent, on vous donne des données précises et vous voulez comprendre ce que cet ensemble particulier de données vous révèle sur le monde. Vous vous intéressez probablement moins à ce qui pourrait se produire si vous aviez des données infinies, mais plutôt à tirer les meilleures conclusions possibles des données dont vous disposez.
Sur le plan pratique, les progrès récents en matière de puissance informatique, d’élaboration d’algorithmes et de bibliothèques libres ont permis aux spécialistes d’adapter le flux de travail bayésien.
Le calcul de la distribution a posteriori est impossible sur le plan de l’analyse, de sorte que des méthodes informatiques doivent être utilisées. Les progrès de la puissance de calcul brute survenus seulement dans les années 1990 ont rendu possibles l’analyse bayésienne plus complexe, et les progrès récents des algorithmes ont débouché sur des calculs plus efficaces. Par exemple, l’un des algorithmes les plus populaires, NUTS, n’a été publié que dans les années 2010.
De nombreux problèmes nécessitent le recours à des grappes de calcul pour gérer le temps d’exécution, mais s’il y a un endroit où il faut investir pour comprendre les distributions de probabilité a posteriori, c’est bien dans les sociétés d’assurances qui tentent de gérer le risque!
De plus, la disponibilité de bibliothèques libres, comme Turing.jl, PyMC3 et Stan, permet d’accéder aux routines de base dans une interface accessible.
Subjectivité des valeurs a priori?
Il existe deux façons de réagir à la subjectivité dans un contexte bayésien : soit une caractéristique à adopter, soit un défaut à éviter.
Subjectivité comme caractéristique
Une approche bayésienne pour définir un modèle statistique permet d’intégrer explicitement le jugement de l’actuaire. L’encodage des hypothèses dans un modèle bayésien oblige l’actuaire à être explicite au sujet de prévisions par ailleurs floues. L’hypothèse explicite est également plus propice à un débat productif au sujet de ses mérites et de ses lacunes qu’à un contournement implicite du jugement.
La subjectivité comme un défaut
La subjectivité est inhérente à toutes les méthodes statistiques utiles. Dans les approches traditionnelles, elle comprend la façon dont les données ont été recueillies, l’hypothèse à tester, les niveaux importants à utiliser et les hypothèses au sujet des processus de production de données.
En fait, l’approche « objective » du test d’hypothèses nulles est tellement sujette à abus et fausse interprétation qu’en 2016, l’American Statistical Association a publié une déclaration visant à orienter l’analyse statistique vers une « ère post p<0,05 ». Cette approche « p<0,05 » est intégrée à la plupart des approches traditionnelles de la crédibilité actuarielle[i] et elle devrait donc être également réexaminée.
Distributions maximales de l’entropie
En outre, lorsqu’on attribue une hypothèse a priori à une variable aléatoire, il y a lieu de tirer profit des choix les plus prudents au plan mathématique. Ces distributions sont appelées distributions de l’entropie maximale (DEM) et on peut montrer que, pour certaines contraintes minimales, il s’agit des choix les moins informatifs en théorie de l’information. La valeur la moins informative signifie que la valeur a priori exercera la moindre influence sur la distribution a posteriori qui en résulte.
Par exemple, si tout ce que vous savez, c’est que la moyenne d’un processus aléatoire est positive, la distribution exponentielle est votre DEM. Si vous savez qu’une moyenne et une variance doivent exister pour le processus, la distribution normale est votre DEM. Si vous ne savez rien du tout, vous pouvez utiliser une distribution uniforme pour les valeurs possibles.
Apprentissage bayésien et apprentissage automatique
L’apprentissage automatique (AA) est entièrement compatible avec l’analyse bayésienne – on peut calculer des distributions a posteriori pour les paramètres d’AA comme tout autre modèle statistique, et la combinaison d’approches peut être fructueuse en pratique.
Toutefois, dans la mesure où les actuaires se sont appuyés sur les approches de l’AA en raison des lacunes des approches actuarielles traditionnelles, la modélisation bayésienne peut constituer une solution de rechange attrayante sans recourir à des modèles d’AA notoirement pointilleux et difficiles à expliquer. Le cadre bayésien fournit un modèle explicable et offre plusieurs extensions analytiques au-delà de la portée du présent article d’introduction :
- Modélisation causale : détermination non seulement des relations corrélées, mais aussi des relations causales, dans des contextes où une expérience traditionnelle n’est pas disponible.
- Action bayésienne : optimisation d’un paramètre, p. ex., pour un niveau ECU95 plutôt qu’une moyenne de paramètre.
- Critère d’information : techniques fondées sur des principes pour comparer l’ajustement et la complexité du modèle.
- Données manquantes : mécanismes permettant de traiter les différents types de données manquantes.
- Moyenne des modèles : les valeurs a posteriori peuvent être combinées à partir de différents modèles pour synthétiser différentes approches.
Ouvrir la voie aux actuaires
Les approches bayésiennes pour traiter des problèmes statistiques modifient rapidement le domaine de la statistique professionnelle. Dans la mesure où la profession actuarielle intègre des procédures statistiques, nous devrions envisager d’adopter les mêmes pratiques. Il en résulte une meilleure compréhension de la distribution des risques, des résultats plus interprétables et explicables, et des techniques pouvant être appliquées à un plus large éventail de problèmes.
De nombreuses ressources sont mises à la disposition des actuaires qui souhaitent en apprendre davantage. Les manuels recommandés par l’auteur sont les suivants :
- Statistical Rethinking (McElreath)
- Bayes Rules! (Johnson, Ott, Dogucu)
- Bayesian Data Analysis (Gelman et coll.)
De plus, l’auteur a publié quelques exemples d’analyse actuarielle sur JuliaActuary.org.
Les faits énoncés et les opinions formulées dans le présent document sont ceux de chaque auteur et ne correspondent pas nécessairement à ceux de la Society of Actuaries, des rédacteurs du magazine ou des employeurs des auteurs respectifs.
Alec Loudenback, FSA, MAAA, est un vice-président principal chez Fortitude Re. On peut le joindre à alecloudenback@gmail.com.
[i] Il convient de noter que l’approche dont il est question ici est beaucoup plus exhaustive que l’approche bayésienne de Buhlman-Straub décrite dans la documentation actuarielle.