Mémoires d'Actuariat

Application des méthodes d'apprentissage à la modélisation de la prime pure en santé collective
Auteur(s) RIHOUEY N.
Société AVIVA ASSURANCES
Année 2021
Confidentiel jusqu'au 06/04/2023

Résumé
Les évolutions législatives fréquentes et la concurrence exacerbée sur le marché de la santé collective obligent les organismes de complémentaires à ajuster régulièrement leurs tarifs afin d'intégrer les changements de comportement des assurés et préserver leur rentabilité. Ce contexte implique également de veiller à ce que les approches utilisées pour l'élaboration des tarifs soient performantes et bien appropriées au risque assuré. L'approche classique repose sur l'utilisation des modèles linéaires généralises (GLM). Cette méthode présente certains avantages comme la lisibilité du tarif mais aussi certaines contraintes théoriques liées à la distribution des données. Par ailleurs, elles ne permettent pas toujours de prendre pleinement en considération les interactions entre les variables. Le recours aux algorithmes d'apprentissage statistique s'intensifie avec l'augmentation de l'utilisation des données externes car ils permettent de capter ces effets sans à avoir à les spécifier et n'imposent pas de propriétés aussi fortes sur la structure des données. L'objectif de ce mémoire est de tester l'utilisation de deux méthodes d'apprentissage statistique, CART et Random Forest (forêts aléatoires) et de comparer leurs performances avec une modélisation à l'aide des GLM. Des tests de sensibilité sur la performance consistant à faire varier le type d'approche (fréquence-coût moyen ou coût total) et certains paramètres des algorithmes CART et Random Forest seront réalisés. Une analyse complémentaire sur la réforme du 100% santé est également menée afin de mesurer ses premiers effets sur les postes optique et dentaire. Mots clés: Tarification, Complémentaire Santé collective, Modèle linéaire généralisé, GLM, CART, forêts aléatoires

Abstract
Frequent legislative changes and fierce competition in the collective healthcare market force complementary organizations to regularly adjust their rates in order to integrate changes in policyholder behaviors and preserve their profitability. This context also implies ensuring that the approaches used for the development of tariffs are efficient and well match to the insured risk. The classical approach relies on the use of generalized linear models (GLM). This method has some advantages such as policyholders readability as well as some theoretical constraints linked to the distribution of the data. Moreover, they do not always allow to fully take into account interactions between variables. The use of statistical learning algorithms increases with the raise of external data usage as they allow to captured these effects without having to specify them nor impose such strong properties on the data structure. The objective of this thesis is to test the use of two statistical learning methods, CART and Random Forest and to compare their performances with a modeling using GLMs. Sensitivity tests on performance consisting in varying the type of approach (frequency-average cost or total cost) and some parameters of the CART and Random Forest algorithms will be carried out. An additional analysis on the 100% health reform is also being carried out in order to measure its first effects on the optical and dental care. Key words: Pricing, Collective complementary insurance policies, generalised linear model, GLM, CART, Random Forest

Mémoire complet