Mémoire d'actuariat

Le taux de transformation en automobile : comparaison de différentes méthodes d\'apprentissage
Auteur(s) CHARGUERAUD Alice
Société Pacifica
Année 2016
Confidentiel jusqu'au 18/05/2018

Résumé
Dans un univers en pleine évolution face à l'abondance des données, plus généralement dénommé "Big Data", les actuaires doivent nécessairement adapter leurs outils pour progresser dans l'analyse et la prédiction des comportements. Notre étude propose une analyse comparative de différentes méthodes d'apprentissage, ainsi que de leurs résultats en matière de prédiction. En effet, les méthodes d'agrégation appliquées aux arbres de régression semblent proposer des solutions performantes et robustes, et qui présentent, de plus, l'avantage d'être appropriées dans le cadre d'un environnement formé d'un nombre important de variables explicatives. L'application à un cas concret - la modélisation du taux de transformation en assurance automobile - a permis de mieux comprendre le fonctionnement de chacune de ces méthodes statistiques. L'apprentissage automatique repose sur des principes fondamentaux assez différents de la théorie du modèle linéaire généralisé. Bien que toutes les méthodes issues de l'apprentissage automatique aient un socle commun, nous avons pu mettre en évidence leurs particularités. Une comparaison des différentes implémentations a permis de conclure, que pour notre jeu de données, les prédictions apportées par l'algorithme des arbres de régression boostés étaient les plus performantes. L'effet "boîte noire" des algorithmes des arbres de régression et des forêts aléatoires, ainsi que la perte de lisibilité des résultats qui en découle, justifie que la régression logistique, et plus généralement le modèle linéaire généralisé, reste aujourd'hui un outil très populaire dans le secteur de la tarification non-vie.

Abstract
Facing the “Big Data” revolution, the insurance industry ought to adapt their tools to improve their ability to analyse and predict behaviors. In this work, we compare several statistical learning methods and the accuracy of their prediction. Tree related methods appear to give reliable answers and to retain the ability to deal with a large number of input parameters. We consider a case study - the modeling of conversion rate in car insurance - to help us better understand each of these statistical methods. Machine learning relies on fundamental principles which are quite different from the theory of Generalized Linear Models. Although machine learning methods share the same underlying principles, we have been able to pinpoint their specificities. Through a detailed comparison between different approaches, we observed that, for our data set, boosting restricted to regression trees delivered more accurate predictions. The loss in interpretation associated with the use of tree-based methods of data aggregations may explain why logistic regression, and more generally Generalized Linear Models, are still very used in the field of actuarial non-life pricing.

Mémoire complet