Mémoire d'actuariat

Reporting Santé : comment le perfectionner à l\'aide de la Data Science ?
Auteur(s) LE HO Thomas
Société Galéa & Associés
Année 2018
Confidentiel jusqu'au 03/07/2020

Résumé
Data Science, actuariat et santé. Voici les trois notions choisies si ce mémoire devait être résumé en quelques mots. Les capacités technologies augmentant à une vitesse vertigineuse, les outils informatiques possèdent aujourd\'hui des capacités de stockage (de l\'ordre de quelques tera-octets) inimaginables il y a encore dix ans. Devant cette masse nouvelle et importante de données, les modèles actuariels classiques deviennent alors perfectibles : la discipline de la Data Science est née. Dans le domaine de l\'assurance et de l\'actuariat, les possibilités d\'utilisation de la Data Science sont potentiellement nombreuses. Tarification, suivi des risques, détection de phénomènes averses (fraude, résiliation, ...). Les actions éventuelles des Data sciences dans le domaine de l\'assurance sont nombreuses. Dans ce mémoire, nous nous intéresserons à l\'analyse de la consommation santé. Pour ce faire, nous mettons tout d\'abord en place une tarification reposant sur des méthodes actuarielles classiques afin d\'analyser les risques sous-jacents. Or, une partie importante des risques en assurance santé est la problématique des gros consommants. Il peut donc être tout à fait intéressant, dans un second temps, d\'exhiber des caractéristiques propres à ces gros consommants, à l\'aide de méthodes de Data Science. Au-delà des buts évoqués précédemment, ce mémoire vise avant tout à améliorer le reporting santé. De plus, l\'utilisation de techniques issues des Data Science doit permettre d\'affiner l\'analyse de la consommation médicale et d\'identifier de potentielles dérives sur des groupes d\'assurés présentant certaines caractéristiques. Pour ce faire, de nombreuses variables, dont certaines d\'origine externe, sont ajoutées à la base de données initiale afin d\'exploiter au mieux le potentiel des modèles Data Science. Enfin, un reporting santé un peu particulier, mêlant statistiques descriptives et résultats de modèles Data Science, est présenté.

Abstract
Data Science, actuary and health. If this master thesis should be sum up in a few words, these words would be chosen. Technological capabilities increasing fastly, software tools have storage capacities (in the order of some tera-octets) unthinkable a decade ago. With this new and significant data mass, classical statistics models have become unsuitable: Data Science branch was born. In the context of insurance and actuarial science, possibilities for using could be plentiful. Pricing, risks monitoring, adverse behaviours detect (fraud, termination, ...). Potential actions of Data Science in insurance are numerous. In this master thesis, we care about healthcare consumption analysis. To that end, at first, we implement a pricing based on classical actuarial methods in order to analyze subjacent risks. Besides, an important part of risks in health insurance is large consumers issue. Then, it can be useful to extract specific features of large consummers, thanks to Data Science models. Beyond goals raised precedently, this master thesis targets health reporting improvement. Moreover, Data Science technics use should permit a best analysis of health consumption and the identification of potential drifts. In order to maximize Data Science models, some variables, including external variables, are added to the initial database. Finally, a particular health reporting, mixing descriptive statistics and results of Data Science models, is submitted.