Mémoire d'actuariat

Construction d\'un score temporel pour la détection des sinsitres frauduleux en assurance automobile par apprentissage statistique
Auteur(s) GUENDEHOU Godfried
Société Aviva Assurances
Année 2017
Confidentiel jusqu'au 21/09/2022

Résumé
La fraude à l'assurance est un fléau qui freine la croissance des assureurs. Pour cela, la construction de score permettant de classer les sinistres des plus susceptibles d'être frauduleux aux moins susceptibles devient un enjeu stratégique pour les assureurs. Les techniques traditionnelles de détection de sinistres frauduleux ont montré leurs limites et les assureurs se tournent vers des techniques plus sophistiquées comme l'apprentissage statistique. Chez Aviva Assurances, il existe une équipe de recherche et des travaux sur la construction d'un score de détection de fraude à l'ouverture d'un sinistre existent déjà. Le but de ce mémoire est de continuer dans cette dynamique en construisant un score qui change au cours de la vie d'un sinistre. Autrement dit, il s'agit de faire un score à l'ouverture d'un sinistre et un autre après l'expertise du sinistre. Pour se faire, trois bases ont été utilisées. Une première base est constituée des informations disponibles à l'ouverture d'un sinistre (base ouverture) pour la construction du score à l'ouverture, une deuxième base constituée que d'informations du premier rapport d'expertise (base expertise) et une troisième constituée aussi bien d'informations d'ouverture de sinistre que d'expertises (base combinée) pour la construction du score après ouverture. D'autres variables ont été créées en analysant le journal des sinistres grâce à du texte mining. Les modèles utilisés sont : forêt aléatoire, régression logistique, extreme gradiant boosting, réseau de neurone, stacking suivant que la base d'apprentissage soit équilibrée ou non selon l'algorithme SMOTE. Il ressort des résultats qu'à l'ouverture comme à l'expertise, c'est le modèle de stacking qui produit les meilleures performances. De plus,à l'expertise, c'est sur la base combinée que les meilleures performances ont été observées.

Abstract
Insurance fraud is a limiting factor on the growth of insurers. For this reason, the construction of a score to classify claims that are likely to be fraudulent becomes a strategic issue for insurers. Traditional techniques for detecting fraudulent claims have already shown their limitations, and insurers are increasingly turning to more sophisticated techniques such as machine learning. At Aviva Assurances, a Research & Development team has already constructed a score at the First Notice of Loss (FNOL) of a claim. The aim of this thesis is to continue in this dynamic by building a score which changes over the life of a claim. More specifically, it involves the creation of a score at the opening of a claim and another at appraisal. Three databases were used for this study. The first database contains information available at the opening of a claim (FNOL Database) for the construction of the score at the opening; a second database consists of information from the first appraisal (Appraisal Database) and a third consists of information available at both the opening and the appraisal of a claim (Combined Database) for the construction of the score after opening. Other features were created by analyzing the claims logs through text mining. The models used are: random forest, logistic regression, extreme gradient boosting, neural network, stacking. The models were calibrated in a first time without balancing the databases and then on a balanced database thanks to the SMOTE algorithm. We added these terms as variables to the combined database and calibrated another extreme gradient boosting model. The results show that at the opening and at appraisal, the stacking produces the best performances. Moreover, at appraisal, the best performances were observed on the combined basis.