Mémoire d'actuariat

Estimation des Prestations, PSAP et Intervalles de confiance en assurance santé : méthodes d’agrégation et réseaux de neurones
Auteur(s) NDIAYE A.
Société PRO BTP
Année 2020
Confidentiel jusqu'au 12/11/2022

Résumé
Cette étude s'inscrit dans le cadre du suivi et de la revalorisation des contrats collectifs du groupe PRO BTP. En effet, pour garantir une bonne gestion des fonds et optimiser les réserves, il est primordial de mettre en place une gamme de remboursement cohérente aux besoins des assurés. L’objectif est donc de proposer une méthode d'estimation des prestations et PSAP en santé sur les contrats de la gamme et des contrats particuliers ainsi que fournir des intervalles de confiance mesurant l'incertitude des estimations au niveau du contrat. Ainsi, au-delà des estimations ponctuelles nous allons nous intéresser à l'ordre de grandeur des coûts supportés par le groupe. Pour l'estimation des coûts (prime et provision) nous utilisons les méthodes d'agrégation et plus particulièrement la régression XGBoost Tweedie et les réseaux de neurones pour prendre en compte toute la distribution de la variable cible. Le calcul des intervalles de confiance est réalisé à partir de la combinaison de l'approche moyenne-variance et de la procédure bootstrap basée sur l'algorithme Monte-Carlo Dropout. Les réseaux de neurones permettent d'écrire manuellement les modèles mais le recours à la distribution de Tweedie, qui saurait mieux prendre en compte la particularité des prestations, est impossible à cause de sa vraisemblance non explicite. Nous utilisons ici une vraisemblance normale optimisant conjointement la moyenne et la variance et une pseudo-vraisemblance ”normal-inflated” pour prendre en compte la masse en 0. Les résultats de la modélisation des prestations ont révélé des performances satisfaisantes et très proches entre le modèle XGBoost et le réseau de neurones sans dirac. Cependant, la prise en compte de la masse en 0 en apprentissage profond n’améliore pas les estimations par rapport à ce dernier modèle. La couverture des intervalles est respectée dans les deux modèles de réseaux de neurones mais la largeur des intervalles est très différente de l’un à l’autre. À cause de sa difficulté de calibrage, le modèle avec dirac donne des intervalles non exploitables. Enfin, pour les PSAP, le modèle XGBoost nous donne le meilleur provisionnement et discrimine au mieux le portefeuille en séparant les populations hautement risquées et celles à risque faible. Aussi, la comparaison avec un modèle GLM Tweedie nous a révélé qu'avec la fonction de coût mise en place, la performance du réseau de neurones sans dirac se rapproche d'une modélisation GLM Tweedie. Ce résultat conforte les calculs des ICs même si ces derniers ne se sont pas révélés performants sur certains contrats particuliers. Mots clés : Prime pure, PSAP, Intervalles de confiance, XGBoost, Tweedie, Réseau de neurones, Moyenne-Variance, Monte-Carlo Dropout

Abstract
This study is at the heart of the monitoring and revaluation of the collective contracts of PRO BTP Group. Indeed, to guarantee a good management of funds and optimize the reserves, it is essential to set up a reimbursement range adapted to the needs of the insured. The purpose is therefore to propose a method for modeling healthcare costs and claims reserving as well as to provide confidence intervals measuring the uncertainty of estimates at the contract level. Thus, beyond point estimates, we will look at the uncertainty of the costs incurred by the Group. For the modeling (pure premium and provision), we use aggregation methods and more particularly XGBoost Tweedie regression and Neural Networks to consider the entire distribution of the target variable. The computation of the confidence intervals is carried out from the combination of the mean-variance approach and the bootstrap procedure based on the Monte-Carlo Dropout algorithm. Neural networks allow the models to be written manually, but the use of the Tweedie distribution, which would be better to take into account the particularity of the benefits distribution, is impossible because of its non-explicit likelihood. We use here a normal likelihood optimizing jointly the mean and the variance and a pseudo "normal-inflated" likelihood to consider large number of zero values. The results of the pure premium modeling revealed satisfactory and very close performance between the XGBoost model and neural network without dirac. However, taking into account the large number of zero values in deep learning does not improve the estimates compared to the latter model. The interval coverage is respected in both neural network models, but the width is very different to one another. Because of its difficulty in calibration, the model with dirac gives not usable intervals. Finally, for PSAP, the XGBoost model gives us the best reserving and best discriminates the portfolio by separating high risk and low risk. Also, the comparison with a GLM Tweedie model revealed that with the cost function implemented, the performance of the neural network without dirac is close to a GLM Tweedie model. This result reinforces the calculations of the CIs even if they did not be efficient on some particular contracts. Keywords: Pure premium, PSAP, Confidence intervals, XGBoost, Tweedie, Neural network, Mean-Variance, Monte-Carlo Dropout