Mémoire d'actuariat

Claims segmentation : A machine learning approach
Auteur(s) ROLLAND Louis
Société SCOR SE
Année 2019

Résumé
Les méthodes usuelles de provisionnement non-vie sont des méthodes agrégées, reposant sur une segmentation des contrats. Pour chaque segment, un développement est ajusté sur les développements historiques pour estimer le montant de sinistres à venir. L'utilisation d'une segmentation permet de réduire la variance de l'estimation en regroupant des sinistres similaires ensemble. Sous Solvabilité II, cette segmentation doit former des groupes de risques homogènes. L'objectif de cette étude est de challenger la segmentation des sinistres actuellement utilisée chez SCOR P&C, basée sur avis d'experts, contenant des limitations techniques et construite sur des critères relatifs aux contrats. Pour ce faire, des méthodes de Machine Learning ont été utilisées sur une base de données contenant des variables au niveau contrat et au niveau sinistre. Le traitement des valeurs manquantes a été effectué en utilisant une méthode basée sur les corrélations entre les variables. Les segmentations testées ont été construites à partir de : - Arbres de décision ajusté sur les durations de cash-flows d'Incurred ou de Paid : une classe sera attribuée à chaque feuille ; - Clusterings : sur les variables et/ou indicateurs. Pour mesurer la prédictibilité de ces classes, des algorithmes plus élaborés (Réseaux de neurones, Random Forest, Gradient Boosting) ont été utilisés. Les résultats des nouvelles segmentations ont été comparés à la segmentation actuelle sur deux critères : - Homogénéité des classes : en mesurant l'erreur de prédiction sur les durations de cash-flows ; - Qualité de la prédiction : en estimant le montant de l'année N, en enlevant la dernière diagonale, et en estimant le montant d'IBNR et de Réserves, pour les trois ou cinq dernières années de développement. Une fois la segmentation la plus prédictive sélectionnée, sa composition sera étudiée pour mesurer la cohérence de son éventuelle utilisation et ses limites.

Abstract
The traditional methods used in Reserving are aggregated methods, based on a segmentation of contracts: in general, for each segment, a different pattern is fitted to the developments of the previous years to predict the claim amount of the next years. Using a segmentation reduces the volatility of the estimation by aggregating claims with ismilar patterns together. Under the Solvency II regulation, this segmentation must build homogeneous risk groups. The goal of this study is to challenge the current segmentation of claims used by SCOR P&C. This segmentation is based on expert judgements, contains technical limitations and is built on criteria regarding the contracts features. To challenge this segmentation, Machine Learning methods were used on a database containing variables describing both the contracts and the claims' features. The missing values of the database were filled using advanced techniques based on correlations between the variables. The challenging segmentations are based on: - Decision Trees regressors: fitted to durations of Incurred or Paid cash-flows, with each leaf corresponding to a class; - Clustering methods: based on variables and/or indicators. The sturdiness of these segmentations was tested using more advanced algorithms such as Neural Networks, Random forests or Gradient Boosting. The results were compared to the current actuarial segmentation based on two criteria: - Homogeneity: studied by measuring the intra-variance of indicators, regarding Incurred and Paid cash-flows, for sets of classes; - Quality of prediction: using Chain-Ladder method to estimate the cash-flow N not knowing the last development period. As well as predicting IBNR and Reserves for the last 3 or 5 years development on a database of closed-claims. Once the most predictive segmentation selected, its composition will analysed to study the relevance of its use and its limits.

Mémoire complet