Mémoires d'Actuariat

Modélisation de la consommation en Santé par Machine Learning
Auteur(s) LESBATS A.
Société Sham
Année 2022
Confidentiel jusqu'au 31/05/2024

Résumé
Dans ce mémoire, nous proposons d'utiliser différentes méthodologies pour déterminer la prime pure à des fins de tarification pour un assuré d'un contrat d'assurance en santé collective et de connaître les paramètres influents. Cette étude est menée sur deux portefeuilles différents et sur deux types de montants (en frais réels et en montant remboursé par la mutuelle). Nous exploitons la théorie des modèles linéaires généralisés qui sont paramétriques et celle de l'algorithme de Machine Learning eXtreme Gradient Boosting qui est non-paramétrique. Nous proposons deux méthodes pour notre modélisation avec les modèles linéaires généralisés. Dans un premier temps, nous modélisons avec une régression Tweedie tous postes confondus sans décomposition du risque ce qui revient à modéliser la prime pure. Dans un second temps, nous considérons que chaque sous-poste possède une consommation unique avec des paramètres influents différents. Ainsi, nous modélisons la prime pure avec une approche fréquence-coût moyen par sous-poste. En ce qui concerne la méthode non-paramétrique nous modélisons la prime pure avec l'eXtreme Gradient Boosting. Dans un contexte d'utilisation en entreprise, nous avons développé une application R Shiny permettant de modéliser la prime pure pour un assuré en fonction de ses caractéristiques pour certaines méthodes choisies. Mots clés : Assurance Santé, Modèles Linéaires Généralisés, Santé Collective, Régression Tweedie, Approche Fréquence-coût moyen, Machine Learning, GLM, XGBoost, R Shiny, Prime Pure, Remboursement de la part de la mutuelle, frais réels.

Abstract
In this case study, we propose using various methodologies to determine the loss cost for pricing a group health insurance policyholder and to know the influential parameters. This study is carried out across two different portfolios and on two amount types (real expenses and amount reimbursed by the mutual insurance company). We exploit the theory of generalized linear models which are parametric and the Machine Learning's algorithm named eXtreme Gradient Boosting which is non-parametric. We propose two methods for our modelling with generalized linear models. Firstly, we model with an all-act Tweedie regression without risk decomposition, which is equivalent to modelling the loss cost. Secondly, we consider that each sub-act has a unique consumption level with different influential parameters. Thus, we model the pure premium with a frequency-cost approach per act. As for the non-parametric method, we model the loss cost with the eXtreme Gradient Boosting. In a business context, we have developed an R Shiny application allowing to model the pure premium for an insured according to his characteristics for some selected methods. Keywords : Health insurance, Generalized Linear Models, Collective Health, Tweedie Regression, Frequency-cost method, Machine Learning, GLM, XGBoost, R Shiny, Pure Premium, Insurance company's reimbursement, real expenses.