Mémoire d'actuariat

Prédire les sinistres graves en assurance : les apports de l\'apprentissage statistique aux modèles linéaires
Auteur(s) TREMBLAY Charles
Société PACIFICA
Année 2017

Résumé
Ce mémoire explore les apports de l'apprentissage statistique à la modélisation de données rares. Nous étudions la fréquence d'incendies graves au sein d'un produit d'assurance multirisque, après détermination du seuil des graves par la théorie des valeurs extrêmes. Les variables explicatives sont enrichies de données externes et de données sur la sinistralité antérieure. Nous étudions la performance, mesurée par l'AUC sur base de test, de différents modèles - GLMs et algorithmes CART. La rareté des graves déséquilibre les données : nous les rééquilibrerons grâce à un algorithme de suréchantillonnage synthétiques (SMOTE) qui accroît fortement la performance des modèles. Après optimisation des paramètres, la régression de Poisson atteint un AUC de 70%, et le CART de régression de Poisson dépasse 74% d'AUC, malgré le faible volume des données. La sélection des variables est assurée au sein des GLMs par la pénalisation LASSO, et au sein des CARTs par l'élagage, deux méthodes calibrées automatiquement par validation croisée. Le regroupement préalable des variables à grand nombre de modalités est assuré par GLM, le regroupement par CART n'étant pas fiable. Les modèles linéaires nous permettent d'enrichir l'équation tarifaire et fournissent des éléments d'analyse pour la prévention : les graves sont principalement expliqués par une certaine typologie de sinistres attritionnels antérieurs, par le niveau des capitaux garantis et par le taux de chômage. Les CART nous permettent - avec seulement 2 critères - d'isoler un groupe réduit et de risque 20 fois supérieur à la moyenne, pouvant faire l'objet d'une revue au cas par cas.

Abstract
This memoir explores the contributions of statistical learning to the modelling of scarce data. We study the frequency of severe fires within a multirisk insurance product, after having determined the threshold of severe damages with the theory of extreme values. Explanatory variables are enriched with external data and data on the previous damages. We study the performance, measured with the AUC on test data, of several models - GLMs and CART algorithms. The scarcity of severe damages makes the data unbalanced : we balance them thanks to a synthetic oversampling algorithm (SMOTE) which strongly increase models performance. After parameters optimisation, the Poisson regression reaches an AUC of 70%, and the associated CARD exceeds 74%, despite the low volume of the data. Variables selection is carried out within GLMs by least absolute shrinkage and selection operator (LASSO), and within CARTs by pruning, two methods automatically calibrate through cross-validation. Variables with numerous categories are beforehand grouped through a GLM, the CART being an unreliable grouping method. Linear models allow us to enrich the pricing equation and provide analytical elements for prevention : severe damages are mainly explained by a certain typology of previous attritional damages, by the level of guaranteed assets and by the unemployment rate. CARTs allow us to isolate two large pricing groups, one being 7 times riskier than the other, through only two criteria. They also allow us, through 10 criteria, to isolate a limited group 20 times riskier than the average, within which insured parties can be individually reviewed.

Mémoire complet