Mémoire d'actuariat

Modélisation de la fréquence des sinistres graves en assurance automobile : apports et interprétabilié des méthodes d'apprentissage statistique
Auteur(s) FRANQUET Sophie
Société GALEA & Associés
Année 2018
Confidentiel jusqu'au 21/09/2020

Résumé
La prédiction des sinistres graves est un enjeu majeur en assurance. La fréquence de ces sinistres est traditionnellement modélisée à l'aide de modèles linéaires généralisés (GLM). Or ces dernières années ont vu la démocratisation des algorithmes d'apprentissage statistique qui s’avèrent souvent plus performants. L’objectif de ce mémoire est double : d’une part déterminer le modèle le plus pertinent parmi ceux étudiés pour modéliser la fréquence des sinistres graves en assurance automobile, et d’autre part analyser l’interprétabilité de ces modèles. Les performances du modèle linéaire généralisé sont comparées à trois modèles d’apprentissage statistique : l’arbre de décision, la forêt aléatoire, et l’extreme gradient boosting. Les algorithmes de rééchantillonnage SMOTE et ROSE sont utilisés et confrontés pour tenir compte du faible nombre de sinistres graves dans la base. Les performances des algorithmes suite à l’optimisation de leurs hyperparamètres sont également analysées. Les modèles sont aussi comparés du point de vue de leur interprétabilité. A ce titre, différentes méthodes telles que le graphique représentant l'importance relative des variables et les partial dependence plots sont ensuite mises en œuvre pour obtenir une compréhension globale des algorithmes dits « boîtes noires ». La méthode LIME est également utilisée pour permettre une compréhension de la prédiction à un niveau local. Les modèles d’apprentissage statistique s’avèrent bien plus performants que le GLM. C’est l’algorithme de forêt aléatoire optimisé et entraîné sur une base rééchantillonnée avec ROSE qui permet d’obtenir les meilleures performances. Par ailleurs cet algorithme reste facile et rapide à optimiser, et est relativement intelligible grâce aux méthodes d’interprétabilité utilisées.

Abstract
Predicting large claims is a major issue in insurance. Traditionally, generalized linear models (GLM) are used for modelling the frequency of those claims. Yet, the last few years have witnessed the democratization of machine learning algorithms which usually have better performances. The objective of this study is twofold: determine which model is more relevant for modelling the frequency of large claims in auto insurance and analyse the interpretability of the models studied. The generalized linear model performances are compared to the ones of three machine learning algorithms: the decision tree, the random forest, and the extreme gradient boosting. Resampling methods SMOTE and ROSE are used and compared to deal with highly unbalanced data. The performances of the models after their hyperparameters tuning are also analysed. The interpretability of the models are also compared. To that end, several methods such as the feature importances plot, and the partial dependence plots are used to get a global comprehension of the black box models. The LIME method is also applied to obtain a local understanding. The machine learning methods have indeed better performances than the GLM. It's the tuned random forest algorithm trained on the learning dataset resampled with ROSE which gives the best performances. Furthermore the tuning of this algorithm is easy and quick, and it is relatively intelligible thanks to the interpretability methods used.