Mémoires d'Actuariat

Détection des profils à fort risque de résiliation en assurance Auto avec des méthodes d’apprentissage automatique
Auteur(s) AGBEDJINOU S. L.
Société Gan Assurances
Année 2021
Confidentiel jusqu'au 17/11/2023

Résumé
Le marché de l'assurance auto en France est très concurrentiel avec une cohabitation de plusieurs fournisseurs d'assurance couplé d'une stagnation du parc des véhicules assurés. On distingue notamment les bancassureurs, les assureurs directs ou encore les sociétés avec intermédiaires. La conséquence directe est qu'il est non seulement difficile de gagner de nouveaux clients mais aussi de garder plus longtemps un client en portefeuille. C'est pourquoi l'étude des résiliations est devenue un sujet crucial pour les compagnies d'assurance. Elle permet de connaitre le profil de risque des assurés qui résilient le plus afin de prendre des mesures adéquates pour les fidéliser ou non. Ce mémoire traite de la résiliation de l'assurance auto du portefeuille GAN AUTO. L'objectif étant de garder les clients le plus longtemps, il s'intéresse uniquement aux résiliations qui émanent de la volonté de l'assuré. Une première statistique descriptive après l'étape de prospection des données est réalisée. Après cela, un modèle de régression logistique est mis en place. Ce modèle a permis de décorréler les effets de chaque modalité des différentes variables et de mieux expliquer le profil de risque de chaque assuré selon certains critères "métiers". Le pouvoir prédictif de ce modèle étant limité notamment à cause du déséquilibre entre les classes des contrats résiliés et non résiliés, nous avons mis en place deux modèles de machine Learning : Random Forest et le XGBoost. Des techniques de rééchantillonnage sont ensuite appliquées pour améliorer les résultats obtenus notamment en termes de AUC, courbe ROC, courbe Rappel- Précision. Enfin, une méthodologie innovante basée sur la construction d'un scoring de sinistralité avec l'algorithme BiRank qui utilise un graphe biparti valué est mise en œuvre pour mieux cibler les contrats résiliés. Mots clés : Résiliation, Régression logistique, Random Forest, XGBoost, BiRank, Graphe biparti.

Abstract
The car insurance market in France is very competitive, with several insurance providers cohabiting and the number of insured vehicles stagnating. There are bank insurers, direct insurers and companies with intermediaries. The direct consequence is that it is not only difficult to win new customers but also to keep a customer in the portfolio for longer. This is why the study of cancellations has become an import issue in most insurance companies. It allows to know the risk profile of the policyholders who cancel the most in order to take adequate measures to keep them. This thesis deals with the cancellation of car insurance in the "GAN AUTO" portfolio. As the objective is to keep customers as long as possible, it focuses only on cancellations that emanate from the will of the insured. A first descriptive statistic after the data collection stage is carried out. After that, a logistic regression model is set up. This model made it possible to capture the effects of each modality of the different variables and to better explain the risk profile of each insured according to certain business criteria. Finally, as the predictive power of this model was limited, mainly because of the imbalance between the classes of cancelled and non-cancelled contracts, we implemented two machine learning models: random forests and XGBoost. Resampling techniques are applied to improve the results obtained, particularly in terms of AUC, ROC curve and Recall-Accuracy curve. Finally, an innovative methodology based on the construction of a claims scoring with the BiRank algorithm which uses a valuated bipartite graph network, is implemented to better target the terminated contracts. Key words : Cancellations, Logistic Regression, Random Forest, XGBoost, BiRank, Bipartite graph.

Mémoire complet