Mémoires d'Actuariat

Etudes et prédictions des sinistres graves en assurance Multirisque Commerce à l’aide du Machine Learning
Auteur(s) LORANGE V.
Société Generali
Année 2022
Confidentiel jusqu'au 03/05/2024

Résumé
Ce mémoire a été réalisé chez Generali France. Il s’est inséré dans un projet, nommé LCAP, qui avait pour objectif de « dérisquer » les portefeuilles Multirisque Commerce et Risque Industriel. En effet, on a constaté une augmentation de la charge sinistre liée aux sinistres graves au cours des 10 dernières années. Cette étude avait donc pour origine la volonté d’en apprendre plus sur les principaux facteurs de risques propres aux sinistres graves afin d’améliorer le tarif et la politique de renouvellement. L’étude a été séparée en trois : une étude de la fréquence, une étude de la sévérité et une étude des rapports d’expertises. Mon mémoire se penche sur l’étude de l’aspect sévérité de la MRC. Après une brève présentation du produit MRC chez Generali, je décris les principales variables de la base de données construites et je réalise une analyse des sinistres présents. Je présente aussi comment a été traité le cas des variables catégorielles. Certaines avaient beaucoup trop de modalités ou alors certaines catégories avaient un effectif bien trop faible. Un mélange de classification (comme la méthode des plus proches voisins) et de regroupement « à dire d’expert » a été utilisé. Je traite aussi le cas des valeurs manquantes, qui dans certains cas ont dû être remplacées avec des méthodes de régression (implantation multiple séquentielle). Un sinistre grave est un sinistre dont le montant dépasse un certain seuil fixe arbitraire. Historiquement, ce seuil est fixé à 150 000€ chez Generali. Ce seuil est challengé dans ce mémoire. La performance et la qualité du modèle et de ses conséquences sont extrêmement liées à ce seuil. J’utilise ainsi des outils mathématiques provenant de la théorie des valeurs extrêmes afin de trouver ce seuil de gravité. Deux approches sont proposées. L’une cherche à définir un seuil en euro et l’autre raisonne en termes de taux de destruction ; le taux de destruction étant la charge du sinistre rapportée à l’engagement de la police. L’utilisation d’un graphique quantile-quantile confirme le caractère extrême de la distribution des sinistres. La combinaison de plusieurs méthodes (Mean Excess Function, estimateur du paramètre ξ de la loi des extrêmes généralisée, graphique de Gerstengarbe) amène à retenir les seuils de 100 000€ et de 12% de taux de destruction. Une fois le seuil fixé, l’étude de la sévérité se fait par un modèle de propension. C’est un modèle de classification binaire où l’on cherche à estimer un score qui représente la propension d’un sinistre à être grave ou non. Les méthodes utilisées sont tirées du Machine Learning. Plus particulièrement, elles sont basées sur des arbres de classification (CART) : Random Forest et Stochastic Gradient Boosting. Les hyperparamètres sont optimisés en utilisant l’AUC tirée de la courbe ROC combinée avec un Grid Search et une validation croisée. Le seuil de classification optimale est choisi à l’aide des matrices de confusions. Le meilleur modèle se révèle être le Stochastic Gradient Boosting pour les deux seuils de gravité retenus. Ce modèle fournit de meilleurs résultats en termes de prédiction sur la base test. Une fois les deux modèles retenus, l’importance et le rôle des variables sont étudiés à l’aide d’outils comme le coefficient SHAP qui donne l’impact marginal des variables lors des prédictions. On est ainsi en capacité de déterminer les principales variables qui jouent un rôle selon la modélisation. Ces variables concernent la taille de l’entreprise, le secteur d’activité de l’entreprise ou encore son ancienneté.

Abstract
This thesis was carried out at Generali France. It was part of a project, called LCAP, which aimed to "de-risk" the Commercial Multirisk and Industrial Risk portfolios. Indeed, an increase in the claims burden linked to serious claims has been observed over the last 10 years. The study was therefore initiated to learn more about the main risk factors for severe claims in order to improve the tariff and renewal policy. The study was divided into three parts: a frequency study, a severity study and a study of expert reports. My thesis focuses on the study of the severity aspect of the MRC claims. After a brief presentation of the MRC product at Generali, I describe the main variables of the database constructed and I carry out an analysis of the present claims. I also present how the categorical variables were handled. Some of them had too many modalities or some categories had a too low number of members. A mixture of classification (such as nearest neighbors) and "expert judgment" clustering was used. I also deal with the case of missing values, which in some cases had to be replaced with regression methods (multiple sequential implantation). A serious claim is a claim that exceeds a certain arbitrary fixed threshold. Historically, this threshold is set at €150,000 at Generali. This threshold is challenged in this thesis. The performance and the quality of the model and its consequences are highly dependent on this threshold. I thus use mathematical tools from the extreme value theory to find this threshold of gravity. Two approaches are proposed. One seeks to define a threshold in euros and the other reasons in terms of destruction rate; the destruction rate being the cost of the loss in relation to the commitment of the policy. The use of a quantile-quantile graph confirms the extreme nature of the claims distribution. The combination of several methods (Mean Excess Function, estimator of the parameter ξ of the generalized law of extremes, Gerstengarbe graph) leads to the retention of the thresholds of 100 000€ and 12% of destruction rate. Once the threshold has been set, the study of the severity is carried out using a propensity model. This is a binary classification model where we try to estimate a score that represents the propensity of a claim to be serious or not. The methods used are derived from Machine Learning. More specifically, they are based on classification trees (CART): Random Forest and Stochastic Gradient Boosting. The hyperparameters are optimized using the AUC from the ROC curve combined with Grid Search and cross validation. The optimal classification threshold is chosen using the confusion matrices. The best model was found to be the Stochastic Gradient Boosting for both severity thresholds. This model provides better results in terms of prediction on the test basis. Once the two models have been selected, the importance and role of the variables are studied using tools such as the SHAP coefficient, which gives the marginal impact of the variables in the predictions. In this way, we are able to determine the main variables that play a role according to the model. These variables concern the size of the company, the sector of activity of the company or its seniority.