Mémoire d'actuariat

Etude de l’efficacité de la sélection médicale en assurance des emprunteurs
Auteur(s) SHARMA A.
Société BNP Paribas Cardif
Année 2021
Confidentiel jusqu'au 17/03/2026

Résumé
Mots clefs : sélection médicale, surprimes médicales, SMR, jointure, apprentissage statistique, gradient boosting, Shapley Additive exPlanation. La sélection médicale consiste à évaluer le risque médical d’un assuré lors de la souscription d’une assurance. L’objet de ce mémoire est d’étudier l’efficacité de la sélection médicale en assurance des emprunteurs. L’étude consiste notamment à déterminer si les taux de surprime appliqués aux assurés risqués sont justifiés empiriquement. Pour évaluer le risque des assurés nous utilisons un modèle de machine learning, le gradient boosting. L’enjeu de ce mémoire est d’évaluer ce modèle avec des données réelles. La première étape de l’étude consiste à obtenir les données des assurés ayant passé la sélection médicale. Pour cela plusieurs bases de données sont retraitées et nous proposons une amélioration de la jointure existante. Un modèle de gradient boosting est appliqué sur nos données. Nous utilisons ce modèle pour estimer la probabilité de décès d’un assuré en fonction de ses caractéristiques. Nous utilisons ensuite SHAP (Shapley Additive exPlanation) afin d’interpréter le modèle. Les 3 variables les plus importantes pour le modèle selon SHAP sont l’âge de l’assuré, l’ancienneté du contrat et le sexe de l’assuré. A l’aide de SHAP, on établit que les assurés ayant passé la sélection médicale ont une sinistralité plus faible les premières années du contrat. Pour analyser les surprimés médicaux nous utilisons le Standard Mortality Ratio (SMR), qui exprime le rapport entre la mortalité observée et la mortalité prédite par le modèle. Le SMR nous permet de vérifier que les surprimés sont bien sur-risqués par rapport aux non surprimés. Nous montrons que le modèle de gradient boosting permet de mieux prédire la sinistralité des assurés, et qu’il discrimine mieux le risque que les tables de mortalités d’expérience.

Abstract
Key words : medical underwriting, extra insurance premiums, SMR, data-bases join, machine learning, gradient boosting, Shapley Additive exPlanation. Medical underwriting is the process of evaluating the medical risk of an insured when subscribing out insurance. The purpose of this thesis is to study the effectiveness of medical selection in borrowers insurance. In particular, the study aims to assess whether the extra premium rates applied to risky insureds are empirically justified. To evaluate the risk of the insured we use a machine learning model, a Gradient Boosting model. The aim of this paper is to evaluate this model with real data. The first part of the study was to obtained data from insured persons who have undergone medical selection. For this purpose, several databases are reprocessed and we propose an improvement of the existing join. A gradient boosting model is applied on our data. We use this model to estimate the probability of death of an insured person according to his characteristics. We then use SHAP (Shapley Additive exPlanation) to interpret the model. The 3 most important variables for the SHAP model are the age of the insured, the seniority of the contract and the sex of the insured. Using SHAP, we show that insureds who have undergone medical selection have a lower death risks during the first years of the contract. To analyze those identified has risky policyholders we use the Standard Mortality Ratio (SMR), which expresses the ratio between observed mortality and the mortality predicted by the model. The SMR allows us to verify that those paying an extra premium have effectively a higher death rate than those not paying an extra premium. We show that the Gradient Boosting model allows us to better predict the claims experience of policyholders, and that it discriminates risk better than experience mortality tables.