Mémoire d'actuariat

Etude de la probabilité de survenance de la dépendance totale par approche machine learning
Auteur(s) DIADITCHEVA Nadejda - RESTOUEIX Mélina
Société Groupama
Année 2019
Confidentiel jusqu'au 16/10/2021

Résumé
La perte d'autonomie associée au grand âge est un risque récent et directement lié à l'accroissement de l'espérance de vie en France. Les conséquences de la perte d'autonomie peuvent être lourdes pour les personnes touchées comme pour leurs proches. Pour faire face à ces situations et compléter l'aide de l'Etat existante, les assureurs proposent des contrats d'assurance dépendance qui permettent d'assumer les conséquences financières de la dépendance lorsqu'elle survient. Groupama a été l'une des premières compagnies françaises à commercialiser ce type de produits, dès 1988, et dispose aujourd'hui d'une base de données de près de 300 000 contrats. Dans ce mémoire, nous nous intéresserons à la modélisation des probabilités d'entrée en dépendance totale, en nous appuyant sur les données historiques de Groupama et en utilisant des techniques d'apprentissage supervisé. L'objectif de cette étude est double : il s'agit d'identifier de nouvelles variables d'intérêt, influençant potentiellement de manière complexe la dépendance pour constituer des groupes homogènes de risque et apporter des arguments quantitatifs à la politique de souscription, mais également d'évaluer la possibilité d'utiliser les probabilités individuelles prédites pour estimer des lois d'entrée en dépendance. Nous réalisons dans un premier temps un retraitement de nos différentes sources d'information, incluant plusieurs imputations des données manquantes, en sélectionnant à chaque étape la méthode la plus pertinente sur nos données, et en tenant compte du caractère hétérogène de nos données. La probabilité de devenir dépendant est ensuite prédite par différents modèles d'apprentissage automatique, parmi lesquels le Support Vector Machine, les forêts aléatoires et le Gradient Boosting. La performance de chacun des modèles est analysée au travers de la courbe ROC et de l'aire sous cette courbe. La comparaison de ces performances conduit finalement à retenir le modèle Extreme Gradient Boosting comme modèle le plus adapté à nos données. L'importance des variables obtenue avec ce modèle sélectionné nous apporte ainsi de nouvelles informations métiers, que nous tentons dans une dernière partie d'appliquer directement, en proposant une nouvelle segmentation pour les lois d'entrée en dépendance utilisées en tarification. Enfin, nous reprenons en synthèse l'apport des limites de cette étude.

Abstract
The loss of autonomy due to old age is a recent risk directly correlated on the increase in life expectancy in France. The consequences of the loss of autonomy can be severe for those affected as well as for their close family and friends. in order to addres these situations by supplementing the state aid currently available, insurers offer dependency insurance policies that cover the financial consequences of dependency when it arises. Groupama was one of the first French companies to market this sort of product from as early as 1988. Today it possesses a database of almost 300 000 contracts. In this thesis we address the modeling of the probability of becoming totally dependent, based on Groupama's historical data and by using supervised learning techniques. Our study has a dual objective: to identify new variables of interest which could potentially have a complex impact on disability, in order to develop homogenous groups of risk providing quantified arguments to underpin insurance coverage policy, but also to assess the possibility of using predicted individual probability to develop probability distributions relating to the occurrence of dependency. First of all, we execute a detailed reprocessing of our different sources of information, including several imputations for missing data, selecting the most pertinent method for the data at each stage, and by taking account of the heterogeneous nature of that data. The probability of becoming dependent is tehn predicted using different learning models, including the Support Vector Machine, Random Forests and Gradient Boosting. The performance of each of these models is analysed with reference to the ROC curve and the area below this curve. Comparison of these performances ultimately results in choosing the Extreme Gradient Boosting model as being the most appropriate for our data. The significance of variables obtained using the selected model is such as to provide us with new business metrics, which we conclude by attempting to apply directly, through a new segmentation of the laws relating to the occurence of dependency, for the purposes of pricing. Finally, we summarise the finding and limitations of the study.