Mémoire d'actuariat

Modélisation de la sinistralité en incapacité d\'un portefeuille de TNS et de salariés par apprentissage binaire
Auteur(s) BELLAGHA Neil
Société Generali France
Année 2018
Confidentiel jusqu'au 14/06/2020

Résumé
Les méthodes d'apprentissage utilisées dans ce mémoire répondent au besoin de mieux connaître les variables à disposition de l'assureur (sources interne et externe) qui permettent d'expliquer et de prédire pour le risque incapacité les deux évènements redoutés par tout assureur, à savoir d'une part l'occurrence d'au moins un sinistre incapacité et d'autre part un ratio prestation/primes supérieur à 100%, et cela sur une fenêtre d'observation allant de 2010 à 2016 (années pleines). Les résultats peuvent constituer des pistes d'optimisation de la tarification ou des majorations annuelles. Dans une démarche à la fois prédictive et explicative, la performance évaluée sur l'échantillon d'apprentissage ainsi que sur l'échantillon test a été quantifiée pour comparer quatre modèles d'apprentissage automatique issus des arbres CART avec quatre modèles de régression logistique (apprentissage statistique). Le choix de telles méthodes d'apprentissage n'est pas anodin puisqu'elles permettent d'établir pour les variables étudiées des indicateurs de pertinence dans la discrimination des populations étudiées (sinistrés et non sinistrés ; sinistrés rentables et non rentables) comme l'importance, le Mean Decrease Entropie/Gini/Accuracy ou encore les odds ratios. L'étude révèle que des variables capturant l'écoulement du temps comme l'ancienneté en portefeuille ainsi que des variables liées au cadre de vie général de l'assuré comme sa situation familiale, son domaine d'activité professionnelle et sa zone géographique de résidence sont les variables les plus discriminantes. Le maintien d'une sélection médicale (surprime) semble nécessaire, et la levée de l'interdiction de tarifer selon le sexe mérite d'être discutée.

Abstract
The supervised learning methods used in this study try to satisfy the need to know more about the variables accessible to the insurer (internal and external sources) that can explain and predict the two events feared by any insurer regarding the incapacity for work, namely the occurrence of at least one insurance claim on the one hand, and a claims-to-premiums ratio greater than 100% on the other hand, and this over an observation window from 2010 to 2016 (full years). The results can be used to optimize pricing or annual increases of the premium. The approach, both predictive and explanatory, consists in quantifying the performance relying on the learning sample as well as on the test sample, in order to compare four machine learning models derived from the CART trees with four logistic regression models (statistical learning). The choice of such learning methods is not insignificant since they make it possible to establish indicators of relevance of the variables in the discrimination of the studied populations (policyholders in a situation of incapacity for work) like the importance, the Mean Decrease Entropy/Gini/Accuracy criterion or the odds ratios. The study reveals taht variables capturing the passage of time such as contract lifespan as well as variables related to the general living environment of the policyholder as his family situation, hs professional activity and his geographical area of residence are most descriminant variables. The maintenance of a medical selection (extra premium) seems necessary, and the lifting of the prohibition to price by sex deserves to be discussed.