Mémoires d'Actuariat

Utilisation de la DSN et de l'open data pour élaborer et expliquer un zonier incapacité
Auteur(s) LOUREIRO D.
Société Malakoff Humanis
Année 2021

Résumé
Dans un contexte de dégradation continue du risque arrêt de travail depuis plusieurs années en France , la généralisation de la Déclaration Sociale Nominative (DSN) offre de nouvelles opportunités pour mieux anticiper et comprendre ce risque. Ainsi, dans un environnement de plus en plus concurrentiel, l'utilisation des données de masse fournies dans la DSN peut permettre de proposer des tarifs plus segmentés. Ce mémoire traite de l'élaboration d'un zonier incapacité dans le but de prendre en compte la localisation de l'entreprise dans la tarification prévoyance collective. Il est construit en utilisant une classification ascendante hiérarchique avec contraintes de proximité géographique (Chavent et al., 2018). Cette méthode présente l'avantage de tenir compte du voisinage dans l'attribution des classes de risques à chaque territoire. Cette classification est basée sur les résidus agrégés d'une régression logistique multinomiale prenant en compte les critères usuels de tarification. Ces résidus contiennent donc la part non expliquée de la sinistralité après prise en compte des critères de tarification déjà utilisés. Une analyse du zonier obtenu est réalisée à l'aide de données démographiques et socio-économiques de l'INSEE et des SHAP values, permettant ainsi de mieux appréhender les caractéristiques des différentes zones. Ces open data sont aussi utilisées pour estimer le risque porté par les territoires n'ayant que très peu d'affiliés chez Malakoff Humanis. Enfin, l'apport du zonier dans la connaissance du risque arrêt de travail est validé en comparant les modélisations avec/sans zonier, ainsi qu'en ayant recours à une base de données "test". Mots-clés : zonier, classification ascendante hiérarchique, contraintes de proximité géographique, data science, structure de voisinage, SHAP, régression multinomiale, arrêt de travail, déclaration sociale nominative (DSN), open data

Abstract
Against a backdrop of a steady deterioration in the sick leave risk over the past several years in France , the nominative social declaration (DSN) offers new opportunities to better anticipate and understand this risk. Thus, in an increasingly competitive environment, the use of the data provided in the DSN may make it possible to offer a more segmented pricing. This dissertation deals with the creation of a zoning in order to take into account the company location in the pricing system of group insurance contracts. It is constructed using a hierarchical clustering with spatial constraints (Chavent et al., 2018). This method has the advantage to take into account the neighbourhood when assigning risk classes to each territory. This clustering is based on the aggregated residuals of a multinomial logistic regression considering the usual pricing criteria. These residuals therefore contain the unexplained part of the occurrence of sick leaves, after taking into account the pricing criteria already used. An analysis of the obtained zoning is carried out using demographic and socio-economic data from INSEE and SHAP values, thus providing a better understanding of the characteristics of the different zones. These public data are also used to estimate the risk borne by territories with few or no Malakoff Humanis policyholders. Finally, the contribution of the zoning in the knowledge of the sick leave risk is validated by comparing the models with and without zoning and by using a "test" dataset. Keywords: zoning, hierarchical clustering, spatial constraints, data science, neighbourhood structure, SHAP, multinomial regression, sick leave, nominative social declaration, open data

Mémoire complet