Mémoires d'Actuariat

L’apport du Machine Learning dans la tarification des contrats d’assurance santé
Auteur(s) SENHADJI A.
Société FIXAGE
Année 2021

Résumé
La concurrence du marché des contrats d’assurance complémentaire de santé réside surtout dans la capacité de ces organismes d’assurance à attirer des clients. Ainsi la détermination du prix d’un contrat est une étape non négligeable dans la commercialisation d’un contrat. Notre attention se porte sur l’estimation du coût moyen des sinistres d’un organisme complémentaire de santé dans le cadre du modèle fréquence – coût moyen. Le plus souvent dans la tarification a priori, la méthode employée dans le processus de tarification pour l’estimation de la fréquence et du coût moyen est le modèle linéaire généralisé. L’apparition de bases de données en libre accès et de nouvelles variables disponibles permettent d’envisager un nouveau processus de tarification. En effet cet apport de données permet de légitimer l’emploi de méthodes non paramétriques issues du Machine Learning. A ce titre, nous appliquons les arbres CART, les Forêts aléatoires et l’algorithme XGBoost dans le cadre de l’estimation du coût moyen. Puis nous comparons pour les différents algorithmes l’apport des variables exogènes dans la qualité de la prédiction et de la segmentation. Pour cela nous utilisons la base de données de l’assureur que nous enrichissons par l’ajout de données exogènes.

Abstract
Competition in the market for supplementary health insurance contracts resides primarily in the ability of these insurance organisations to attract customers. Determining the price of a contract is therefore a significant step in the marketing of a contract. Our attention is focused on estimating the average cost of claims of a complementary health insurance company within the framework of the frequency-average cost model. Most often in a priori underwriting, the method used in the underwriting process for estimating frequency and average cost is the generalised linear model. The emergence of open access databases and new variables available make it possible to envisage a new pricing process. Indeed, this contribution of data makes it possible to justify the use of non-parametric methods derived from the Machine Learning. In this respect, we apply CART trees, Random Forests and the XGBoost algorithm within the framework of the estimation of the average cost. Then we compare for the different algorithms the contribution of exogenous variables in the quality of prediction and segmentation. For this we use the insurer's database which we enrich by adding exogenous data.

Mémoire complet