Mémoire d'actuariat

Modélisation du taux d’incidence perte d’emploi avec les méthodes classiques et alternatives de Machine Learning
Auteur(s) ATMAN I.
Société SOGECAP
Année 2021
Confidentiel jusqu'au 14/01/2023

Résumé
Ce mémoire se place dans le cadre de l'étude des Cessione del Quinto. Il s'agit d'un prêt particulier: les mensualités sont prélevées directement sur le salaire de l'emprunteur et elles ne peuvent excéder le cinquième celui-ci. Selon la loi italienne, ce prêt est obligatoirement couvert par une assurance pour les risques de décès de l'emprunteur ou bien d'insolvabilité due à une perte d'emploi, volontaire ou non. En assurance, éviter les erreurs de financement constitue un objectif primordial pour assurer la pérénité des produits, la modélisation des risques est l'outil principal pour y parvenir. L'objet de ce mémoire porte sur l'étude actuarielle du produit CQS et l'identifiation des facteurs de risque auquel il est soumis. Lors de notre démarche nous avons travaillé à partir des bases de données de la populations des assurés et des sinistrés dont nous disposons. Dans un premier temps, nous avons calculé les taux d'incidence de l'évènement d'intérêt par année et selon la catégorie socio-professionelle. La méthode d'estimation des réserves de Chain Ladder, nous a permis d'estimer les IBNRs. Les calculs selon la méthode de Kaplan Meier et le modèle de Cox nous ont apporté de nombreuses indications concernant le risque perte d'emploi. Ces méthodes sont habituellement utilisées en analyse de survie, car elle permettent la considération de la censure. L'application d'un lissage sur les taux bruts s'est montrée nécessaire. Nous avons utilisé la méthode de Whittaker-Henderson. Nous avons déduit les taux d'incidence perte d'emploi au cours du temps en fonction des diffé rentes modalités. L'étape finale de cette étude consiste à évaluer l'impact des différentes covariables, qui sont les caractéristiques des assurés, sur la variable cible, la sur venance de la perte d'emploi, avec des méthodes de Machine Learning. Afin d 'obtenir les meilleures prédictions possibles, plusieurs algorithmes ont été testés, via un processus très rigoureux et méthodique. Nous avons finalement retenu les résultats des méthodes les plus performantes dans le cadre de notre étude : les forêts aléatoires et le Gradient Boosting. Nous distinguons les covariables les plus impactantes : la catégorie socio-professionelle, le sexe et le produit. Une approche de Machine Learning est un complément utile aux approches classiques pour effectuer une analyse plus poussée. Cette étude est enrichissante et permet diverses applications actuarielles, telle que la pertinence et la cohérence du provisionnement. Mots clés : Risque perte d 'emploi, Analyse de Survie, Méthode de Kaplan Meier, Modèle de Cox, Machine Learning, Arbres de décision, Forêts aléatoires, Gradi ent Boosting

Abstract
This thesis is part of the Cessione del Quinto study. It is a particular loan: monthly payments shall be levied directly on the borrower's salary and shall not exceed one fifth of the borrower's salary. According to Italian law, this loan must be covered by insurance against the risk of death of the borrower or of insolvency due to loss of employment, whether voluntary or not. In insurance, avoiding funding errors is a key objective for product continuity, and risk modelling is the main tool for achieving this. The purpose of this thesis is to do an actuarial analysis of the CQS product and to identify the risk factors to which it is subject. We have been working from the databases of the populations of the insured and the daims we have. In the first step we calculated the interest event impact rates per year and by socio-professional category. The method of estimating Chain Ladder 's reserves allowed us to estimate the IBNRs. The Kaplan Meier method and Cox model impact rate calculations have given us many indications about the risk loss of employment. These methods are commonly used for survival analysis, as they allow censorship to be considered. The application of smoot hing on gross rates was necessary. We used the Whittaker-Henderson method. We implied loss of employment incidence rates for different modalities. The final step in this study is to assess the impact of different covariables, which are insured cha­ racteristics, on the target variable, the occurrence of loss of employment, with met hods of Machine Learning. In order to obtain the best possible predictions, several algorithms were test ed, through a very rigorous and methodical process. We finally use the results of the best methods for our study: random forests and the gradient boosting. We distinguish the most important covariables : the socio-professional category, gender and product. A Machine Learning approach is a useful complement to traditional approaches, for further analysis. This analysis is enriching and enables various actuarial applications, such as the provisioning study. Keywords : Loss of employment risk, Survival Analysis, Kaplan Meier Method, Cox Model, Machine Learning, Decision Trees, Random Forests, Gradient Boosting