Mémoire d'actuariat

Identification des mauvais payeurs en assurance santé collective suite à la mise en place de l\'ANI
Auteur(s) LINA Jean-Philippe
Société Generali France
Année 2018
Confidentiel jusqu'au 14/06/2020

Résumé
Depuis la mise en place de l\'Accord National Interprofessionnel du 11 janvier 2013 le 1er janvier 2016, les entreprises doivent proposer une complémentaire santé à leurs salariés. Cependant, nous observons qu\'un nombre non négligeable d\'entreprises ne payent pas le montant de prime attendu. L\'objectif de ce mémoire est de prédire les entreprises qui seront mauvais payeurs. Pour cela nous utilisons 3 méthodes d\'apprentissage statistique que nous comparons et combinons afin d\'obtenir un modèle plus performant. Ces méthodes sont la forêt aléatoire, la régression logistique et les k-plus proches voisins. Les deux premières parties consistent en la présentation de l\'assurance santé et l\'analyse de notre portefeuille d\'assurés. Nous détaillons le fonctionnement du paiement des cotisations et les facteurs influençant le non-paiement de celles-ci. Nous décrivons aussi les mauvais payeurs actuels. La troisième partie traite de la création et du traitement des bases pour notre étude. Nous utilisons des méthodes d\'imputations pour pallier au problème des données manquantes. Dans une quatrième partie, nous appliquerons et optimiserons nos méthodes. Nous précisons les points forts de chaque méthode et examinons les applications et limite de la démarche. Finalement, dans une dernière partie nous utiliserons nos modèles pour prédire les mauvais payeurs sur les affaires nouvelles 2017 et en déduire la prime réglée par ces entreprises. Nous interpréterons aussi les coefficients de la régression logistique pour en déduire les profils d\'entreprises les plus à risque.

Abstract
Since the establishment of the Accord National Interprofessionnel of January 11th 2013 on January 1st 2016, companies must offer complementary health insurance to their employees. However, we observe that a significant number of companies do not pay the expected amount of premium. The purpose of this thesis is to predict the companies that will be bas payers. For this we use 3 statistical learning methods that we compare and combine in order to obtain a more efficient model. These methods are random forest, logistic regression and k-nearest neighbors. The first two parts consist of the presentation of health insurance and the analysis for our insured portfolio. We detail the functioning of the payment of contributions and the factors influencing the non payment of contributions. We also describe the current bad payers. The third part deals with the creation and the treatment of the databases for our study. We use imputation methods to overcome the problem of missing data. In a fourth part, we will apply and optimize our methods. We highlight the strengths of each method and examine the application and limits of the approach. Finally, in a final part we will use our models to predict bad prayers on new business 2017 and deduct the premium paid by these companies. We will also interpret the coefficients of the logistic regression to deduce the profiles of the companies most a risk.