Mémoire d'actuariat

Prediction des résiliations en santé individuelle
Auteur(s) PEYRILLER Audrey
Société ACTUARIS
Année 2019
Confidentiel jusqu'au 01/04/2021

Résumé
L'anticipation des résiliations clients reste une priorité pour les organismes complémentaires, au vu des conséquences de ces dernières. Face à cela, la prédiction du comportement des adhérents demeure difficile, étant face à des individus dont l'attitude n'est par toujours rationnelle. Le marché de la santé en perpétuelle mouvance et les offres en grand nombre facilitent, de plus, la résiliation des contrats individuels par les assurés. L'enjeu de ce mémoire est, dans un premier temps, de cibler les caractéristiques des assurés pouvant représenter une alerte pour résiliation, mais aussi de pouvoir prédire ces dernières. Ainsi, afin de répondre à notre problématique, des données intégrant les propriétés des assurés, leur consommation sur deux ans et les motifs de résiliations ont été utilisées. Seulement 13 % de résiliations sont présentes dans les bases de données. Afin d'appliquer des algorithmes de Machine Learning, des méthodes d'échantillonnage ont été employées. Elles permettent ainsi d'équilibrer les deux classes de la variable à prédire, par création de nouvelles résiliations et suppression de non résiliations. L'application de modèles de forêts aléatoires et l'étude des corrélations nous ont ensuite permis de sélectionner les variables les plus significatives pour notre modèle. De plus, un modèle de régression logistique a été estimé, afin de déterminer les profils les plus risqués et les moins risqués pour la résiliation. Enfin, des méthodes d'apprentissage telles que les arbres CART, les forêts aléatoires et les gradients boostés ont été comparées, dans le but de déterminer celle nous permettant de prédire les résiliations au plus juste.

Abstract
Anticipating contract terminationss remains a priority for complementary organizations, given the consequences of the latter on the business. Additionally, predicting the behaviour of the insured remains difficult, given that those behaviors are not always rational. The constantly changing health insurance market and the large number of offers also facilitate the termination of individual contracts by policyholders. The aim of this memorandum is to target the characteristics of policyholders who may represent an alert for termination, but also to be able to predict them as accurately as possible. Thus, in order to respond to our problem, data integrating the properties of the insured, their consumption over two years and the reasons for termination were used. Only 13 % of cancellations are present in the database. In order to apply Machine Learning algorithms, resampling methods were used. Thus it was possible to balance the two classes of the variable to be predicted, by creating new terminations and removing non-cancellations. The application of random forest models and the study of correlation, a logistic regression model was estimated to determine the most and least risky profiles for termination. Finally, learning methods such as CART trees, random forest and boosted gradients were compared in order to determine the one that would allow us to predict terminations as accurately as possible.