Mémoire d'actuariat

Automatiser la comparaison de modèles : Application sur l\'amélioration d\'un modèle de fréquence par des techniques de machine learning
Auteur(s) LECOMTE Kévin
Société AXA France
Année 2018
Confidentiel jusqu'au 15/02/2020

Résumé
Ce mémoire s'articule autour de trois piliers. Nous travaillons tout d'abord sur un modèle de fréquence non contraint pour la garantie dommage auto à des fins internes de pilotage des résultats. La méthodologie de construction du modèle linéaire généralisé est détaillée pour être ensuite adaptée aux autres garanties. Les performances obtenues sont supérieures au modèle tarifaire contraint, avec un indice de Gini qui augmente. Dans une deuxième partie, nous tentons d'en améliorer les performances en le complétant par des techniques de machine learning. Nous nous sommes concentrés sur la sélection de variables et la détection d'interactions à l'aide d'un stochastic gradient tree boosting. Les indicateurs statistiques de performance usuels ne nous ont pas permis d'apprécier les écarts de performance. Ainsi, nous avons développé dans la dernière partie un outil de comparaison de modèles qui pourra servir d'aide à la décision pour tout utilisateur confronté à une multitude de modèles disponibles. Nous avons créé un outil interactif, dynamique et automatisé et avons inclus une forte composante visuelle à travers la construction de nombreux graphiques pour dépasser les limites des indicateurs de performance usuels. Nous avons choisi la librairie Shiny du langage R qui possède l'avantage de pouvoir être distribuée facilement dans la considération des prochaines étapes de ce projet. L'utilisation de l'outil sur nos modèles a montré une amélioration non négligeable de la performance apportée par les méthodes d'apprentissage automatique utilisées, avec toutefois un risque de sur-apprentissage lié à la faiblesse du signal qu'il reste à capturer après la prise en compte des effets de premier ordre.

Abstract
This paper is divided into three parts. We first work on an internal and unconstrained motor own damage frequency model for monitoring and management of results. The construction methodology of the generalized linear model is detailed for future application to other guarantees. The performances obtained are superior to the ones of the constrained pricing model, with a Gini index that increases. In a second part, we try to improve its performance by supplementing it with techniques of machine learning. We focused on variable selection and interaction detection using a stochastic gradient tree boosting. The usual performance indicators did not allow us to assess performance gaps. Thus, we have developed in the last part a model comparison tool that can serve as a decision aid for any user facing several available models. We have created an interactive, dynamic and automated tool and have included a strong visual component through the construction of many graphs to overcome the limits of usual performance indicators. We chose the R Shiny library, which offers the benefit of easy distribution when considering the next steps of this project. Using the tool on our models has shown an overall improvement in the performance provided by the machine learning methods, with however a risk of overfitting related to the weakness of the signal that remains to be captured after taking into account the first order effects.