Mémoire d'actuariat

Détermination de la rentabilité des agents en AUTO et MRH : modélisation et interprétation via des méthodes d'apprentisage automatique
Auteur(s) MAISONNAVE Louis
Société Generali France
Année 2019

Résumé
Tandis que la rentabilité technique est un des enjeux majeurs des entreprises d'assurance, en proposant une tarification actuarielle, la sélection de bons ou mauvais risques reste encore aujourd'hui à la main des agents. Ainsi, il devient important de proposer des explications aux agents, d'aider ces derniers en leur proposant des axes d'amélioration afin d'être plus performants. La démarche de ce mémoire est alors de prédire via des algorithmes d'apprentissage automatique (en anglais machine learning), la rentabilité des agents, puis de fournir aux agents une explication de la rentabilité, avec des axes métiers d'amélioration. Cependant, modéliser la rentabilité d'un agent est une tâche très complexe du fait que sa rentabilité dépend de beaucoup de paramètres dont certains qu'on ne peut capter, par exemple le savoir-faire de l'agent ou la propension à proposer au client un produit adapté. Un agent pouvant proposer une multitude de contrats (Vie, MRH, Automobile, Commerce, Risque industriel, Santé, etc...), analyser la rentabilité en prenant en compte toutes ces typologies de risque devient délicat. A cette fin, nous modélisons la rentabilité des agents via deux modèles d'apprentissage automatique qui ont fait leur preuves : le gradient boosting et les forêts aléatoires gagnent en pouvoir prédictif par rapport à d'autres méthodes plus conventionnelles, mais ils perdent en interprétation. Il s'agit ainsi d'utiliser plusieurs outils permettant son interprétation. Nous interprétons alors les sorties grâce aux variables les plus importantes du modèle. Dans un second temps, nous mettons en place un clustering sur les variables dites "structurelles" de l'agent, i.e. celles qui sont relatives au portefeuille de l'agent. Ce clustering permet de comparer chaque agent sur son groupe. Enfin, une interprétation innovante via des graphiques de dépendance partielle est faite afin de capter l'effet de chaque variable sur le modèle de manière locale (par observations).

Abstract
While technical profitability is one of the major challenge for insurance companies, puttint in place actuarial pricing, the risk selection still remains in the hands of agents. Thus it becomes important to give explainations to agents, to help the latter by proposing them improvement areas in order to be more efficient. The approach of this thesis is to predict the agents rate of return using machine learning algorithms, and then to provide an explanation to agents, providing ways of improvment. To do this, we model the agents porfitability via several models and interpret the outputs with the feature importance of the model. However, modeling the agents profitability is a very complex task because its profitability depends on many parameters, some of which can not be captured, for example the know-how of the agent or the propensity to offer the customer a suitable product. Because an agent can offer a variety of contracts (Life insurance, House, Car insurance, commercial insurance, Industrial Risk, Health, etc.), it becomes dedicate to analyze its profitability by takin into account all these types of risks. To this end, we model the agents profitabilty via two proven algorithms of machine learning: gradient boosting and random forests. Machine learning algorithms such as gradient boosting or random forests are succesfull compared to other more conventional algorithms, but they lose in interpretability. Thus it is a matter of using several tools allowing its interpretation. We then interpret the outputs using the feartures importance of the model. Secondly, we build a clustering on the variables called "structural" of the agent, i.e. that relating to the agent's portfolio. Thanks to this clustering, we can compare each agent on its cluster. Finally, an innovative interpretation via partial dependency graphs is used to capture the locally effect of each variable on the model (by observations).

Mémoire complet