Mémoires d'Actuariat
Prédiction et explication de la fréquence de sinistralité toutes garanties MRH par apprentissage automatique dans le cadre du provisionnement de l'année en cours
Auteur(s) CLEMENT O.
Société Axa France IARD
Année 2025
Confidentiel jusqu'au 17/09/2027
Résumé
L’assurance multirisque habitation propose différentes garanties pour pro téger les biens immobiliers et mobiliers des assurés. Chacune de ces garanties possède des caractéristiques spécifiques que l’assureur doit prendre en compte pour estimer les provisions nécessaires à la couverture des sinistres. Ce calcul est réglementé et peut être effectué selon plusieurs méthodes, la plus cou ramment utilisée étant la méthode Chain-Ladder. Toutefois, cette méthode agrégée est sensible à la volatilité, en particulier pour les années de surve nance récentes, et cette sensibilité peut varier selon les garanties. Pour remédier à ce problème, la méthode de la fréquence et du coût moyen est mise en œuvre. Cette méthode permet une véritable approche d’estima tion de la provision de l’année en cours par le biais de la composition du portefeuille et une réactivité sur les hypothèses annuelles retenues. L’objectif de ce mémoire est de démontrer que les résultats obtenus avec la méthode fréquence/coût sont plus fiables. Fort de ce constat, notre priorité est de prédire au mieux la fréquence des sinistres et de comprendre les fac teurs explicatifs de son évolution. Des modèles individuels reposant sur des techniques d’apprentissage automatique vont être développés. Ces modèles seront ensuite interprétés à l’aide d’algorithmes de Shapley afin d’analyser les facteurs influençant l’évolution de la fréquence. D’autre part, ce processus sera répété pour estimer le coût moyen. Mots clefs: Assurance Multirisque Habitation, Provisionnement individuel, Chain-Ladder, Fréquence, Coût moyen, Apprentissage automatique, XGBoost, validation croisée, loi forte des grands nombres, matrice de confusion, SHAP, Kaplan-Meier
Abstract
Home multi-risk insurance offers various guarantees to protect the in sured’s homes and movable property. Each of these guarantees has specific characteristics that the insurer must take into account to estimate the provi sions necessary for covering claims. This calculation is regulated and can be performed using several methods, the most common being the Chain-Ladder method. However, this aggregated method is sensitive to volatility, especially for recent occurrence years, and this sensitivity may vary depending on the guarantees. To address this issue, the frequency and average cost method is implemen ted. This method allows for a true estimation approach of the provision for the current year through the composition of the portfolio and responsiveness to the annual assumptions retained. The objective of this thesis is to demonstrate that the results obtained with the frequency/cost method are more reliable. Building on this observa tion, our priority is to best predict the frequency of claims and to understand the explanatory factors of its evolution. Individual models based on machine learning techniques will be developed. These models will then be interpreted using Shapley algorithms to analyze the factors influencing the evolution of frequency. Furthermore, this process will be repeated to estimate the average cost. Keywords: HomeMulti-RiskInsurance, Individual provisioning, Chain-Ladder, Frequency, Average cost, Machine learning, XGBoost, Cross-validation, Strong law of large numbers, Confusion matrix, SHapley Additive exPlanations, Kaplan-Meier
Auteur(s) CLEMENT O.
Société Axa France IARD
Année 2025
Confidentiel jusqu'au 17/09/2027
Résumé
L’assurance multirisque habitation propose différentes garanties pour pro téger les biens immobiliers et mobiliers des assurés. Chacune de ces garanties possède des caractéristiques spécifiques que l’assureur doit prendre en compte pour estimer les provisions nécessaires à la couverture des sinistres. Ce calcul est réglementé et peut être effectué selon plusieurs méthodes, la plus cou ramment utilisée étant la méthode Chain-Ladder. Toutefois, cette méthode agrégée est sensible à la volatilité, en particulier pour les années de surve nance récentes, et cette sensibilité peut varier selon les garanties. Pour remédier à ce problème, la méthode de la fréquence et du coût moyen est mise en œuvre. Cette méthode permet une véritable approche d’estima tion de la provision de l’année en cours par le biais de la composition du portefeuille et une réactivité sur les hypothèses annuelles retenues. L’objectif de ce mémoire est de démontrer que les résultats obtenus avec la méthode fréquence/coût sont plus fiables. Fort de ce constat, notre priorité est de prédire au mieux la fréquence des sinistres et de comprendre les fac teurs explicatifs de son évolution. Des modèles individuels reposant sur des techniques d’apprentissage automatique vont être développés. Ces modèles seront ensuite interprétés à l’aide d’algorithmes de Shapley afin d’analyser les facteurs influençant l’évolution de la fréquence. D’autre part, ce processus sera répété pour estimer le coût moyen. Mots clefs: Assurance Multirisque Habitation, Provisionnement individuel, Chain-Ladder, Fréquence, Coût moyen, Apprentissage automatique, XGBoost, validation croisée, loi forte des grands nombres, matrice de confusion, SHAP, Kaplan-Meier
Abstract
Home multi-risk insurance offers various guarantees to protect the in sured’s homes and movable property. Each of these guarantees has specific characteristics that the insurer must take into account to estimate the provi sions necessary for covering claims. This calculation is regulated and can be performed using several methods, the most common being the Chain-Ladder method. However, this aggregated method is sensitive to volatility, especially for recent occurrence years, and this sensitivity may vary depending on the guarantees. To address this issue, the frequency and average cost method is implemen ted. This method allows for a true estimation approach of the provision for the current year through the composition of the portfolio and responsiveness to the annual assumptions retained. The objective of this thesis is to demonstrate that the results obtained with the frequency/cost method are more reliable. Building on this observa tion, our priority is to best predict the frequency of claims and to understand the explanatory factors of its evolution. Individual models based on machine learning techniques will be developed. These models will then be interpreted using Shapley algorithms to analyze the factors influencing the evolution of frequency. Furthermore, this process will be repeated to estimate the average cost. Keywords: HomeMulti-RiskInsurance, Individual provisioning, Chain-Ladder, Frequency, Average cost, Machine learning, XGBoost, Cross-validation, Strong law of large numbers, Confusion matrix, SHapley Additive exPlanations, Kaplan-Meier
