Mémoire d'actuariat

Inclusive Underwritting : The Case of Breast Cancer Calculator
Auteur(s) TARIQ El Mehdi
Société SCOR
Année 2020
Confidentiel jusqu'au 29/01/2022

Résumé
Toute personne souffrant d'un handicap, d'une invalidité, d'une maladie grave ou chronique ou prenant des médicaments régulièrement est considérée comme un risque aggravé de santé. Ces personnes-là ont bien évidemment le droit de souscrire à un contrat d'assurance vie ou emprunteur. Cependant, elles peuvent être obligées de payer une prime plus importante que celle appliquée à une personne présentant un risque standard. On appelle surprime les primes payées par des assurés souffrant d'un risque aggravé. ces surprimes ont pour but de palier au risque de surmortalité auquel sont soumis ces personnes. Dans ce mémoire nous étudions le cas particulier des personnes qui ont survécu à un cancer du sein et qui souhaitent s'assurer. Le montant de la surprime varie évidemment en fonction de certaines variables "pronostiques", comme l'âge de l'individu, la taille de la tumeur ainsi que d'autres facteurs de risque. L'objectif de ce mémoire est d'évaluer la surprime individualisée qui sera demandée à la souscription du contrat. Le terme de cancer du sein est un terme générique qui couvre des pathologies très hétérogènes. La gravité du cancer du sein dépend en réalité de plusieurs variables qui peuvent jouer en sens opposé. C'est pourquoi, afin de déterminer la surprime affectée à chaque femme ayant survécu à un cancer du sein, il est nécessaire de construire un calculateur qui prenne en compte les différents facteurs de pronostiques. Ce calculateur permettra ainsi de développer une souscription plus inclusive. Afin de réaliser ce projet de "Calculateur cancer du sein", nous avons utilisé les données de la base SEER, qui est la base de données spécifique aux cancers la plus riche et la plus complète du monde. Cette base sera utilisée afin de prédire les probabilités de décès associées à chaque individu. De plus, afin d'avoir les prédictions les plus fidèles et consistantes, nous avons utilisé et comparé les résultats et performances d'un modèle probabiliste classique (Régression logistique) et de trois modèles de Machine Learning (XGBoost, GA2M et Random Forest). Après avoir sélectionné le modèle le plus performant et cohérent, nous avons développé et déployé un modèle actuariel, permettant de passer de cette probabilité de décès (ou surmortalité) à la surprime finale, tout en prenant compte du risque de rechute dans cette maladie.

Abstract
Anyone with a disabilty, handicap, critical or chronic illness or taking medication regularly is considered an "aggravated health risk". These people have the right to subscribe to an insurance policy. However, they may have to pay a higher premium than that applied to a "healthy" person. Extra-premiums is the term used to describe premiums paid by insured persons suffering from aggravated risk. These extra-premiums are intended to compensate the risk of excess mortality to which these people are exposed. In this memoir we will study the particular case of people with a history of breast cancer and wanted to be insured. The amount of the extra premium naturally varies according to certain "prognostic" variables, such as the age of the patient, the size of the tumor and more. The goal of this memoir is to evaluate the individualized extra-premium that will be requested at the time of underwriting the insurance policy. We have to notice that "Breast Cancer" is a generic term that covers heterogeneous pathologies. Severity of breast cancer depends on various features that may be antagonists. That's why, in order to compute the extra-premium of a person with history of breast cancer, "Calculator" is necessary. This calculator will finally allows to an Inclusive Underwriting. In order to achieve this "Breast Cancer Calculator" project, we used data from the SEER database, which is the richest and most comprehensive cancer-specific database in the world. This database will be used to predict the probabilities of death of each person. In addition, in order to have the most accurate and consistent predictions, we used and compared the results and performance of a classical probabilistic model (Logistic Regression) and three Machine Learning models (XGBoost, GA2M and Random Forest). After selecting the most efficient and consistent model, we developed and implemented and actuarial model, which makes it possible to move from this probability of death (or excess mortality) to the final extra-premium.