Mémoire d'actuariat

Modélisation de la sinistralité tempête, apport de l'Open Data et du Machine Learning
Auteur(s) LANGEVIN Nicolas
Société Sia Partners
Année 2019

Résumé
L'intensification des évènements climatiques ces dernières années pousse les assureurs à maîtriser des risques de plus en plus fréquents. La souscription d'un contrat Multirisque Habitation obligeant l'assureur à couvrir ces risques, la part d'indemnisation des catastrophes naturelles devient importante. Dans un segment de plus en plus compétitif et afin de proposer des tarifs plus adéquats avec le risque couru, les assureurs se doivent de mieux modéliser cette composante. La modélisation actuelle étant coûteuse et souvent non maîtrisée par l'assureur une méthode basée sur l'historique de sinistre a été proposée. S'appuyant sur certaines méthodes de modélisation classiques, le caractère particulier du risque oblige néanmoins l'assureur à la complexifier. La modélisation de la fréquence de sinistre des tempêtes en France métropolitaine a donc été explorée dans ce mémoire. Ce risque souffrant d'une forte composante géographique, l'utilisation de données externes a été nécessaire afin de pallier les données de l'assureur trop limitées. Dans un premier temps, l'étude se concentrera sur la description de l'assurance Multirisque Habitation et de la distinction entre les tempêtes et les autres catastrophes naturelles. La création de la base de modélisation avec l'apport de données issues de projets Open Data divers sera ensuite abordée afin de permettre une première visualisation du risque couru par l'assureur. La deuxième partie abordera la théorie des différentes méthodes de modélisation utilisée afin de proposer une estimation de la fréquence de sinistre basée sur des modèles paramétriques tels que les GLM, les régressions pénalisées et les modèles à inflation de zéros qui permettent de mieux prendre en compte l'absence de sinistres. L'apport de méthodes de Machine Learning (Forêts aléatoires et Gradient Boosting Machine) sera ensuite mesuré et comparé aux méthodes plus classiques. La dernière partie comparera les résultats des différentes méthodes et l'impact de l'apport des données externes, la modélisation étant considérée dans un premier temps en ne considérant que les données de l'assureur. Afin de vérifier l'impact de ces méthodes sur la composante géographique, une analyse de méthodes à la maille départementale sera explorée.

Abstract
The intensification of climatic events in recent years has led insurers to control risks that are becoming more and more frequent. The subscription of a home insurance policy requiring the insurer to cover these risks, the share of compensation for natural disasters becomes significant. In an increasingly competitive segment and in order to offer a more appropriate price for the risk involved, insurers must better model this component. The current modelling is expensive and often obscure for the insurer, a method based on the history of loss has been proposed. Based on some classical modelling of the frequency of storms in metropolitan France has been explored in this paper. Since these risks have a strong geographical component, the use of external data was necessary to overcome the data of the insurer which was too limited. As a first step, the study will focus on the description of comprehensive home insurance and the existing differences between storms and other natural disasters. The creation of the modelling database with the contribution of data from Open Data projects will be discussed in order to allow a first visualization of the risk run by the insurer. Secondly, we will discuss the theory of the different modelling methods used to estimate the frequency of claims based on parametric models such as GLM, penalized regressions and zero-inflated models that better take into account the absence of claims. The contribution of Machine Learning methods (Random Forests and Gradient Boosting Machine) will then be measured and compared to more traditional methods. In the last part, we will compare the results of the different methods and the impact of external data, the modelling being considered initially only with the insurer's data. In order to measure the impact of these methods on the geographical component, an analysis of these method at the departmental mesh will be explored.

Mémoire complet