Mémoire d'actuariat

Provisionnement individuel en assurance non vie dans le cas de garanties à développements courts, modélisation non paramétrique par des méthodes de machine Learning
Auteur(s) BUARI Abdoul-Malik
Société Direct Assurance
Année 2019
Confidentiel jusqu'au 29/09/2021

Résumé
L'objectif de ce mémoire est d'étudier, sinon que de proposer, de nouvelles méthodes d'estimation à un niveau individuel de la charge ultime des sinistres. Le but est de se servir dans le processus de modélisation, de techniques d'apprentissage automatique, encore appelées techniques de machine learning, en lieu et place de méthodes de provisionnement basées sur la calibration de lois statistiques, dont l'estimation des paramètres est bien souvent complexe dans le cadre du provisionnement, à cause de phénomènes de censure. L'idée par une estimation directement à l'ultime de la charge des sinistres, permet de considérer le provisionnement non plus comme un problème qui se résume à une modélisation des processus d'états des sinistres et des processus de règlements associés à l'état de ces sinistres, mais comme un problème de régression entre des variables explicatives de la sinistralité et la charge ultime des sinistres. Ainsi, une bonne précision dans ce type de modélisation ne pourra être atteinte, que si l'on dispose d'observations conséquentes dans nos jeux de données. C'est l'une des raisons pour laquelle nous faisons un focus dans ce mémoire, sur le provisionnement de garanties à développements courts, rapidement consolidées, pour lesquelles l'on dispose de volume de données conséquentes sur des sinistres clos, contrairement à des garanties longues telles que la responsabilité civile. Par une modélisation individuelle de la charge ultime des sinistres, et contrairement aux méthodes de provisionnement agrégées telle que la méthode de Chain Ladder, un des objectifs de ce mémoire est de pouvoir détecter l'origine d'éventuels changements de la sinistralité futur, et d'améliorer ainsi la segmentation du portefeuille assuré. Ceci, afin de proposer aux assurés des prix plus proches de leur consommation quand on sait que la sinistralité est un input important dans le calcul de la prime pure. Après avoir effectué une recherche bibliographique intensive sur le sujet, nous avons décidés d'appliquer à notre jeu de données une méthode de provisionnement non-paramétrique, tirée d'un article de recherche, avec un cadre scientifique bien défini. Cependant, la qualité de précision au niveau de cette méthode n'était pas au rendez-vous. Partant de cette méthode, nous nous en sommes inspirés pour mettre en place une nouvelle méthode de provisionnement dont les résultats obtenus lors des applications sont très encourageant. Nous arrivons notamment à un Boni-Mali moyen de (-) 4 euros sur l'estimation de la charge ultime de sinistres encore ouverts au 30 juin de l'année de survenance 2016. Nous nous sommes servis dans nos modélisations d'algorithmes de machine learning appartenant à la famille des méthodes ensemblistes tels que les forêts aléatoires, auxquels nous avons appliqués le principe de choix aléatoire des points de coupure dans la création des arbres. L'utilisation de méthodes de Boosting nous a notamment permis d'améliorer la précision de nos modèles.

Abstract
The purpose of this thesis is to study, if not suggest, new methods of estimating the ultimate cost of claims at an individual level. The goal, is to use in the modelisation process, statistical learning also called machine learning techniques, instead of reserving methods based on the calibration of statistical laws, whose parameters estimation is often complex in the reserving framework, due to censorship phenomena. The idea of a direct estimation of the claims cost to the ultimate, makes possible to consider reserving problem no longer as a problem that can be summarize as the modeling of claims state processes and state-related settlement processes, but as a problem of regression between explanatory variables of the loss ratio and the ultimate cost of claims. Thus, a good accuracy in this kind of modelisation can only be achieved if there is a significant amount of observations in our datasets. This is one of the reasons why we are focusing in this paper on the reserving of short-term, fast consolidated guarantees for which there is a substantial amount of data on closed claims, unlike guarantees such as liability insurance. By a reserving at an individual level of the ultimate cost of claims, and unlike aggregated reserving methods such as the chain ladder method, one of the objective of this thesis is to be able to detect the origin of possible changes in the future of loss experience, and thus improve the segmentation of the insured portfolio. This, in order to offer policyholder a pricing much loser to their consumption, when we know that the loss ratio is an important input into the computation of the pure premium. After an intensive literature research on the subject, we decided to apply to our dataset a non-parametric reserving method, drawn from a research article, with a well-defined scientific framework. Howerver, the quality of precision of this method was not satisfying. From this method, we get inspired to put in practice a new method of reserving whose results obtained during the applications are very encouraging. To illustrate, we obtain an average Boni-Mali of (-) 4 euros in the estimation of the ultimate cost of claims still open on June 30 of the incurred year of 2016. We used in the modelization process, machine learning algorithms belonging to the family of ensemble methods like the random forests, to which we applied the principle of random choice of the points of cut in the creation of the trees. The use of Boosting methods, allowed us to improve the accuracy of our models.