Mémoires d'Actuariat

Réalisation d’un outil de tarification à priori en Santé grâce à des modèles de machine learning
Auteur(s) VILOTITCH C.
Société Adding
Année 2023
Confidentiel jusqu'au 02/05/2024

Résumé
Le rôle d’un conseiller en actuariat est d’accompagner ses clients dans le pilotage et la mise en place de leurs dispositifs de protection sociale, et notamment en Santé, sur des sujets de tarifications. Puissant et efficace, le machine learning (avec une méthode « fréquence / coût moyen », sous poste par sous poste) s’est révélé être une approche intéressante pour la construction d’un outil de tarification adapté aux besoins des clients. Premièrement, une base de données diversifiée, homogène et exploitable, contenant les différentes dépenses Santé des bénéficiaires de plusieurs entreprises clientes, a été créée. L’analyse de ces données ainsi que de la corrélation entre les différentes variables a conduit à la détermination des différentes variables explicatives. Puis, sur R, deux méthodes ont été utilisées afin de créer les différents modèles de fréquence et de coût moyen de sous poste, puis comparées à l’aide d’indicateurs de performance. D’une part, la création des modèles a été testée en paramétrant manuellement quatre algorithmes de machine learning sur deux sous postes choisis. Cette méthode a permis de proposer des modèles optimaux, mais est chronophage. D’autre part, un algorithme de détermination « automatique » des meilleurs modèles (algorithme « auto-ML »), proposé par la plateforme H2O et couplée avec des méthodes d’interprétabilité, a été utilisé sur tous les sous postes. Cette méthode s’est révélée être plus efficace que la précédente, car elle est plus rapide et propose des modèles performants pour une partie des sous postes. Or, certains modèles proposés ne sont pas appropriés et nécessitent d’être de nouveau modélisés, en modifiant certains paramètres de l’algorithme « auto-ML » ou en améliorant la base de données. La prime commerciale a ensuite été calculée, en fonction des données d’entrée (population et garanties) et de la structure de cotisations.

Abstract
The actuarial consulting company’s role is to best support its client in managing and implementing their social welfare, especially in health-insurance, in pricing. Machine learning seems to be a particularly interesting approach to build this pricing tool as it is powerful, efficient and adaptable. Moreover, the "frequency / average cost" method, item by item, was chosen since it allows great adaptability. First of all, a diversified, homogeneous and exploitable database, containing the various health expenses of several client companies’ beneficiaries, was created. The analysis of these data and the correlation between the different variables led to the determination of the different predictor variables. Then, on R, two methods were used to create the different frequency and average cost models for each item. Performance indicators helped to compare these two methods. On the one hand, the creation of the models was tested by testing different parameters manually on four machine learning algorithms and two chosen items. This method has given high-performance models but is very time-consuming. On the other hand, an algorithm for "automatic" determination of the best models, proposed by the H2O platform, was used on all the items. The use of this "auto-ML" algorithm has been coupled with explainability methods, allowing a better understanding of the models built. This method has proven to be more efficient than the previous one, as it is faster and offers good performing models for some item. However, some proposed models are not suited and need to be rebuilt, by modifying certain parameters of the "auto-ML" algorithm or by improving the database. The commercial premium has been then calculated, depending on the input data (population and guarantees) and the premium structure.

Mémoire complet