Mémoire d'actuariat

Tarification automobile à l'aide de machine learning et apport des données télématiques
Auteur(s) ZOUGGAGH Fatima-Zohra
Société GALEA & Associés
Année 2018
Confidentiel jusqu'au 21/09/2020

Résumé
Dans un contexte concurrentiel comme celui de l'assurance automobile, la tarification représente un défi de taille pour l'assureur. Celui-ci doit élaborer des modèles tarifaires qui doivent refléter au mieux le risque auquel il sera exposé, tout en segmentant aussi finement que possible son portefeuille. par ailleurs, dans un univers en pleine progression devant la multiplication des données, les actuaires se doivent d'adapter leurs outils pour la prédiction des comportements de leurs assurés. Dans ce contexte, l'objectif de ce mémoire s'inscrit autour de deux poins majeurs. Le premier consiste en une étude comparative des performances des modèles économétriques classiques, à savoir les modèles linéaires généralisés (GLM), avec des modèles innovants : CART, Random Forest, le Gradient Boosting Machine (GBM) et l'eXtreme Gradient Boosting (XGBoost) ; et ce pour la prédiction du nombre de sinistres et du coût du sinistre d'un portefeuille de responsabilité civile en automobile. La seconde problématique de ce mémoire est d'étudier l'impact de l'ajout de données télématiques, récupérées auprès d'une entreprise spécialisée dans le comportement des conducteurs. L'enjeu est de comparer la performance des prédictions du nombre de sinistres et du coût du sinistre en ajoutant ces nouvelles variables avec celle obtenue sans ce complément d'information. L'opportunité d'utiliser des données externes sera également mise en relief.

Abstract
In a competitive environment such as car insurance, pricing represents a major challenge for the insurer, insofar as he must develop pricing models that best reflect his risk exposure, while segmenting as finely as possible his portfolio. Moreover, in a rapidly improving world given the data proliferation, actuaries must adapt their tools to predict their policyholders' behavior. In this context, the purpose of this thesis involves two major points. The first point consists of a comparative study of the performance of classical econometric models, namely Generalized Linear Models (GLM), with more innovative models such as CART, Random Forest, Gradient Boosting Machine (GBM) and eXtreme Gradient Boosting (XGBoost); this applied to predicting claims number and claims cost of a car liability insurance portfolio. the second point is around assessing the impact of adding telematics data recovered from a company specialized in driver behavior. The challenge is to compare the performance of the predictions of claims number and claims cost with and without adding this additional information. The opportunity of using external data will also be highlighted.