Mémoires d'Actuariat

Sequential Mortality Modeling with Deep recurrent Models
Auteur(s) FERBACH L.
Société Scor
Année 2022

Résumé
Ces dernières années ont vu une accélération croissante de la transformation numérique de l’assurance, qui s’explique par plusieurs facteurs. Tout d’abord, la prise de conscience par les dirigeants d’entreprises de l’importance des données pour évaluer les risques de décès, dépendance, emprunteur, ... D’autre part, le besoin d’infrastructure performante pour stocker, analyser, et gouverner des données sensibles (contenant des informations personnelles) toujours plus volumineuses. Enfin, la Covid-19 a été un facteur de prise de conscience très puissant et a fortement incité les entreprises à massivement investir dans l’informatique pour rendre le télétravail possible, phénomène qui en s’étendant à la télémédecine rend la collecte de données de santé numériques possible à une bien plus large échelle qu’on ne le pensait jusqu’alors. Ces changements ont permis aux départements de gestion des sinistres et de souscription de profondément repenser leurs systèmes en automatisant les tâches à faible valeur ajoutée pour pouvoir se concentrer sur l’innovation : nouveau produits d’assurance, partenariat avec des insurtechs et hôpitaux, services intelligents aux clients, ... Dans un monde numérique collectant toujours plus de données (voitures connectées, smart watches, ... ), les assureurs doivent se préparer à comprendre ces nouveaux flux de données pour mesurer les risques et les prévenir. Ce mémoire propose donc une construction de simulateur de séries temporelles biométriques (indice de masse corporelle, tension artérielle systolique et diastolique) impactant le risque instantané de mortalité. A partir des données générées, l’étude montre que de simples modèles de machine learning adaptés à la modélisation de la mortalité donnent des résultats satisfaisants. Cependant, ces modèles de classification reposent sur une hypothèse forte d’indépendance entre les observations enregistrées à chaque pas de temps. Ce mémoire présente l’architecture d’un modèle de deep learning récurrent ainsi que son implémentation en Pytorch, une librairie Python pour le deep learning. Ces modèles séquentiels sont utiles pour des équipes de tarification afin de mesurer des sensibilités du prix d’une couverture à l’évolution future du mode de vie d’un assuré (alimentation, activité physique, stress, ...). 2 Ce mémoire d’actuaire orienté recherche apporte un nouveau regard sur la modélisation de la survie grâce aux réseaux récurrents appliqués à l’évolution du profil biométrique d’un assuré. L’étude présente des résultats innovants de tarification adaptative au fil de l’évolution de données biomédicales, plus proches des mortalités réelles que les modèles statiques traditionnels. D’autre part, les modèles de mortalité présentés mesurent seulement la mortalité instantannée en fonction de variables biométriques mais ne possèdent pas de capacité prédictive sur les scénarios biométriques en eux-mêmes. La modélisation des séries temporelles des covariables pourrait être une solution pour prédire un scénario probable d’évolution de la santé de l’assuré à partir d’événements disponibles pour le tarificateur. Mots Clés: Machine Learning, Deep Learning, Assurance-vie, Mortalité

Abstract
Recent years have seen an increasing acceleration in the digital transformation of insurance, which can be explained by several factors. Firstly, the awareness by business leaders of the importance of data to assess the risks of death, dependency, borrower, ... Secondly, the need for an efficient infrastructure to store, analyze, and govern sensitive data (containing personal information) that is increasingly voluminous. Finally, the Covid-19 has been a very powerful awareness factor and has strongly encouraged companies to massively invest in IT to make teleworking possible, a phenomenon that by extending to telemedicine makes digital health data collection possible on a much larger scale than previously thought. These changes have allowed claims and underwriting departments to radically rethink their systems by automating low-value tasks so they can focus on innovation: new insurance products, partnerships with insurtechs and hospitals, intelligent customer services, ... In a digital world collecting more and more data (connected cars, smart watches...), insurers must prepare themselves to understand these new data flows to measure and prevent risks. This thesis therefore proposes a construction of a biometric time series simulator (body mass index, systolic and diastolic blood pressure) impacting the instantaneous risk of mortality. From the generated data, the study shows that simple machine learning models adapted to mortality modeling give satisfactory results. However, these classification models are based on a strong assumption of independence between the observations recorded at each time step. This paper presents the architecture of a recurrent machine learning model and its implementation in Pytorch, a Python framework for deep learning. These sequential models are useful for underwriting teams in order to measure the sensitivities of the price of a coverage to the future evolution of the insured’s lifestyle (diet, physical activity, stress, ...). This research-oriented actuary’s thesis brings a new perspective on survival modeling thanks to recurrent networks applied to the evolution of an insured’s biometric profile. 4 The study presents innovative results of adaptive pricing over the evolution of biomedical data, closer to real mortality than traditional static models. On the other hand, the mortality models presented only measure instantaneous mortality as a function of biometric variables but do not have predictive capacity on the biometric scenarios themselves. Time series modeling of covariates could be a solution to predict a probable scenario of the insured’s health evolution from events available to the underwriter. Key Words: Machine Learning, Deep Learning, Life insurance, Mortality

Mémoire complet