Mémoire d'actuariat

Prédiction des rachats sur le portefeuille épargne AXA Japon
Auteur(s) CHOUKARAH R.
Société GIE AXA
Année 2019
Confidentiel jusqu'au 07/11/2021

Résumé
Aujourd’hui, plus que jamais, une attention particulière est accordée aux risques comportementaux, spécifiquement au risque de rachat qui demeure un des enjeux principaux du cadre réglementaire récent : la solvabilité 2. Le risque de rachat est un risque inhérent à l’assurance vie puisque la possibilité de racheter est un droit de l’assuré dans les contrats épargnes. Ce risque qui a toujours été difficilement maîtrisable est encore considéré comme le plus gros risque technique en assurance vie. Dans ce contexte de fatalité, plutôt que de s’efforcer à éradiquer ce risque, le plus judicieux serait de le cibler et de convaincre l’assuré qu’il ne fera point plus de bénéfice chez un concurrent, en ajustant l’offre proposée au marché et en la personnalisant à chaque assuré. Pour ce faire, nous avons à disposition, aujourd’hui plus que jamais, une large panoplie d’outils d’analyse de la donnée qui recherchent l’information dans les données de l’historique à disposition. La mission réalisée s’inscrit dans ce contexte, puisque l’on vise à prédire les rachats du portefeuille épargne de AXA Japon. Dans un premier temps, nous appliquons des traitements de nettoyage et de standardisation à notre base de données. Dans un second temps, nous effectuons une analyse statistique poussée qui nous permet d’appréhender nos données. Finalement, nous appliquons divers algorithmes de Machine learning s’entraînant sur une partie de notre portefeuille, puis nous les mettons à l’épreuve sur notre dataset test et nous évaluons leurs performances, tout en les confrontant. Globalement, il en ressort que l’algorithme à retenir est l’algorithme Random Forest. Nous nous attendions à ce que ce modèle soit très performant. En revanche, nous pensions que "XGBoost" occuperait la première place du classement vu qu’il se hisse constamment à la tête des listes des algorithmes prédictifs. Le modèle des forêts aléatoires est à privilégier par conséquent pour la prédiction de l’événement de rachat individuel. Nous n’écartons pas pour autant le modèle des régressions logistiques pénalisées puisqu’il permet d’établir un classement des variables selon leur pouvoir explicatif du rachat. Nous retenons donc la méthode facilement interprétable de la régression logistique L1 dans la détermination de l’importance des variables. Mots-clés : Assurance vie, épargne, prédiction, machine learning, lapse, interprétabilité

Abstract
Today, more than ever before, particular attention is being paid to behavioural risk, especially to lapse risk, that remains one of the main issues in the regulatory framework solvency 2. The risk of lapse is an inherent risk to the field of life insurance since option to redeem is a right of the insured in savings contracts. This risk that has always been quite hard to manage is actually considered as the biggest technical risk in the field of life-insurance. In this context of fatality, rather than striving to eradicate this risk, the best course of action would be to is to target it, convincing the insured, through the personalised suggested offers that adapt to the market, to refrain from withdrawing his investment. To this end, we have at our disposal a wide range of tools for data analysis that draw information from the available historical data at hand. The mission carried out is in this context, since the aim is to predict the lapses of AXA Japan’s savings portfolio. As a first step, we apply multiple cleaning and standardization treatments to our database. Secondly, we carry out an in-depth statistical analysis which enables us to understand profoundly the data we have. Finally, we apply various machine learning algorithms trained on a part of our portfolio, then we test them on our data-set test and evaluate their performance. The model of random forests is therefore preferable for the prediction of the individual buyback event. We do not rule out the model of penalised logistic regressions, since it makes it possible to classify variables according to their explanatory power of redemption. We therefore use the easily interpretable method of logistic regression L1 in determining the importance of the variables. Key words : Life insurance,savings, prediction, machine learning, lapse, interpretability