Mémoire d'actuariat

Prédiction de la résiliation des contrats d’assurance Santé Individuelle
Auteur(s) COTHENET M.
Société Axa France
Année 2021
Confidentiel jusqu'au 06/04/2023

Résumé
Alors que la Résiliation infra-annuelle des contrats santé facultatifs entre en application au 1er décembre 2020 et que la duration des contrats reste un élément clé de la rentabilité, la prédiction de la résiliation des clients semble être un avantage différenciant. En prenant une photo du portefeuille en début d’année, serons-nous en mesure de déterminer quels assurés vont résilier dans l’année ? L’étude du portefeuille de Santé Individuelle d’AXA France a permis d'expérimenter et comparer 2 générations de méthodes de prédiction. La régression logistique, méthode traditionnelle permet d’élaborer un score pour chaque individu représentant son risque de résiliation. La forêt aléatoire, elle, classifie les contrats résiliés ou non en réalisant une multitude d’arbres de décisions aléatoires sur des sous-échantillons qui permettent ensuite d’établir une prédiction. Bien qu’enrichies par des données en open data, la régression logistique ne s’est pas révélée efficace. En revanche, la forêt aléatoire a permis de créer une sous-population ayant un risque de résiliation plus de 5 fois supérieur à la population globale et d’identifier plus d’un tiers des résiliations. Des mesures peu coûteuses, car concentrées sur les assurés « risqués », sont donc envisageables et pourraient s’avérer efficaces sur le taux de résiliation. 

Abstract
When the infra-annual termination law for individual complementary health cover enters in applications starting from the 1st of December 2020, the duration of the Health insurance contracts become a key element for the portfolio profitability, such that the capacity of predicting the contracts termination seems to be a competitive advantage. We focus on finding the efficient explanatory variables for predicting the termination of contracts. Two methods, the logistic regression and random forest, are used to study the AXA France’s portfolio. Our study shows that even though our data was enhanced with the external open data, the logistic regression cannot identify the insureds who have the strong tendency to terminate contracts efficiently. The random forest performs much better than the logistic regression and it identifies more than one third of the terminations. In addition, the random forest allows us to establish a sub-set population with a termination risk five times more than that of the overall data set such that we may make the termination rates decrease a lot by taking preventive actions on the sub-set selected by the random forest.