Mémoire d'actuariat

Création de zoniers en assurance habitation à l'aide de variables externes et de méthodes de Data Science
Auteur(s) PESNEAUD Antoine
Société Optimind
Année 2019

Résumé
L'émergence de nouvelles données en libre service combinée à l'apparition de nouveaux algorithmes d'apprentissage entrainent les actuaires à revoir leurs modèles de tarification de produits d'assurance. Dans un contexte de forte concurrence, l'assurance habitation représente une part importante du marché de l'assurance non-vie. L'une des garanties proposées par cette assurance est la garantie Vol, dont la fréquence diffère selon la zone géographique du bien assuré. Ce mémoire s'intéresse au risque lié à la zone pour cette garantie en France métropolitaine, à l'aide de variables externes et de modèles d'apprentissage innovants. La première partie de ce mémoire consiste à effectuer un modèle prédictif de la fréquence hors facteurs géographiques à l'aide de modèles linéaires généralisés (GLM), de façon à séparer les facteurs hors géographiques des autres. La faible fréquence observée sur notre portefeuille ainsi que l'absence de l'intégralité des zones géographiques a amené dans un deuxième temps à effectuer un lissage spatial des erreurs du modèle à l'aide de la méthode des k plus proches voisins. Enfin, dans un troisième temps, un zonier a été construit à partir du risque géographique lissé à l'aide de variables externes en libre service. Plusieurs méthodes statistiques d'apprentissage ont été testées en plus d'une agrégation globale de l'ensemble des méthodes utilisées. Une fois ces différentes étapes réalisées, l'implémentation des nouvelles variables zonières créées au sein du modèle initial de fréquence a permis une comparaison entre les différentes méthodes, ainsi qu'une amélioration du modèle de fréquence, illustrant le potentiel des données en libre service et des nouvelles méthodes d'apprentissage.

Abstract
The rise of Open data combined with new machine learning algorithms are causing actuaries to revise their pricing models for insurance products. In a context of strong competition, home insurance represents an important part of non-life insurance market. One of the guarantees offered by this insurance is the guarantee theft, whose frequency differs according to the geographical area of the insured property. This thesis focuses on the risk associated with the area for the coverage in metropolitan France, using Open data and innovative learning models. The first part of this thesis consists in performing a predictive model of the frequency outside geographic factors using generalized linear models (GLM), so as to separate out-of-geographical factors from the others. The low frequency observed on our portfolio as well as the absence of the entirety of the geographical zones brought in a second time to carry out a spatial smoothing of the errors of the model by the k nearest neighbors' method. Finally, in a thrid step, a zone was constructed from geographical risk smoothed using external self-service variables. Several statistical methods of learning have been tested in addition to a global aggregation of all the methods used. Once these different steps were completed, the implementation of the new zoning variables created within the initial frequency model allowed a comparison between the different methods, as well as an improvement of the frequency model, illustrating the potential of Open Data and new learning methods.

Mémoire complet