Mémoires d'Actuariat

Étude et implémentation de techniques d’analyse de sensibilité dans les modèles de tarification Non-Vie. Application à la tarification à l’adresse
Auteur(s) BUCCI S.
Société ADDACTIS France
Année 2021

Résumé
Le marché de l’assurance a beaucoup évolué depuis les deux dernières décennies grâce à la digitalisation du parcours de souscription, à l’exploitation du Big Data et aux techniques d’apprentissage automatique (forêt aléatoire, xgboost, CART, réseaux neurones, ...) qui fournissent à l’assureur une connaissance très fine du risque. Cependant, dans la littérature actuarielle, peu d’articles vont au-delà du modèle linéaire généralisé (GLM), et peu d’assureurs utilisent les méthodes de Machine Learning comme modèle de tarification pour leur sinistralité, bien qu’on leur reconnaisse un meilleur pouvoir prédictif. Il y a principalement trois raisons à ce choix : • le manque d’interpretabilité,• la complexité dans la mise en place de ces modèles, car on s’éloignerait du mécanisme de calculette tarifaire • et une contrainte éthique puisque l’utilisation du Machine Learning dans la tarification peut conduire à une "hyper-personnalisation du risque". Une méthodologie de détection d’interactions a été développée dans le cadre de ce mémoire, dans une vision collaborative entre les modèles de Machine Learning et des modèles linéaires généralisés. En supposant que l’interaction statistique est une manifestation de la complexité des modèles black box, l’optimisation d’un GLM simple à l’aide des interactions bénéficie des gains opérationnels et dans la performance des modèles d’apprentissage automatique. Les indices de Sobol et les indices de SHAP sont les clés de relecture des modèles prédictifs, puisqu’ils visualisent et quantifient les impacts des variables d’entrée sur la sortie selon un "juste" partage. Le périmètre d’étude est un produit d’assurance Multirisques habitation (MRH) pour la garantie dégâts des eaux où les données sont individualisées à l’adresse.

Abstract
Over the last two decades, the insurance market has changed thanks to the digitalization of the underwriting process, the use of Big Data and automatic learning techniques (random drill, xgboost, CART, neural networks,...) which provide the insurer with a very detailed knowledge of the risk. However, in the actuarial literature, few articles go beyond the Generalized Linear Model (GLM), and few insurers use machine learning methods as a pricing model for their claims experience, although they are recognized as having better predictive power. There are mainly three reasons for this choice:• the lack of interpretability • the complexity in the implementation of these models, because it would move away from the rate calculation mechanism,• and an ethical constraint since the use of the learning machine in underwriting can lead to a "hyperpersonalization of the risk”. In the framework of this paper, a methodology has been developed to detect interactions among input variables in a pricing model. Thus, assuming that the statistical interaction is a manifestation of the complexity of the black box models, the optimization of a simple GLM using interactions benefits from the operational gains of machine learning models. Sobol indices and SHAP are the keys to reading predictive models, since they visualize and quantify the impacts of input variables on the output according to a "fair" split. The scope of study is a home insurance product for water damage coverage where data are individualized at the address.

Mémoire complet