Mémoire d'actuariat

Etude de méthodes innovantes de machine learning permettant la tarification de produits Santé en mobilité internationale
Auteur(s) LAGOS Tatiana
Société Swiss Life
Année 2018

Résumé
Ces dernières années, la méthodologie GLM est devenue l'approche la plus couramment utilisée lorsque l'on parle de modélisation prédictive et de manière plus précise en assurance non-vie. Toutefois, les compagnies d'assurance développent de plus en plus des plateformes Big Data permettant de stocker une abondante quantité d'informations qui sera postérieurement utilisée, entre autres, pour la mise en place des modèles prédictifs servant à résoudre plusieurs problématiques rencontrées en assurance. L'objet de ce mémoire est primordialement la mise en application d'algorithmes supervisés Machine Learning en complément de la modélisation GLM. Il s'agit bien évidemment de méthodologies plus modernes et spécialisées dans le cadre des problèmes de régression et qui sont aujourd'hui peu utilisées en tarification d'assurance santé à l'international. Afin d'obtenir des modèles de qualité, le projet est mené dès la structuration d'une base de données propre et homogène jusqu'au calcul de la prime pure d'un produit de couverture basique en santé, c'est à dire comprenant les garanties : Dentaire, Hospitalisation et Soins Courants, en associant à chacune d'entre elles une pondération obtenue à travers de l'agrégation de modèles. Ce processus nécessite un traitement préalable des données ainsi qu'une analyse détaillée du portefeuille. Entre temps, une attention particulière est donnée à la création, inclusion et segmentation des variables tarifaires ainsi qu'à l'utilisation des Systèmes d'information Géographique dans le domaine géospatial. Grâce au développement de ces techniques, nous prétendons maximiser l'efficacité des ressources employées lors du processus de tarification. Pour ce faire, l'utilisation de l'outil statistique R nous facilitera l'obtention des résultats de l'étude.

Abstract
Over the last years, the GLM methodology has become the most common and precise technique in non-life predictive modeling. At the same time, insurance companies are creating more powerful platforms that allow us to stock more and more information each time that will be used in these predictive models. This will help us to solve many problems that still exist in the insurance world. The purpose of this project is to apply supervised algorithms as a GLM modeling complement. We are talking about the most specialized methodologies today to use in regression problems, and that are not frequently applied in health insurance pricing. In order to obtain quality models, the project is conducted from the structuring of a well-treated database to a basic health care product pure premium estimates. This product includes the following benefits : Dental care, inpatient and outpatient common treatments. Eacho ne receives a weighting percentae obtained by using ensemble modeling algrorithms. This process requires a pre-treatment of data, as well as a detailed portfolio analysis. Special attention is given to the creation, inclusion and categorization of the variables used to predict, as well as geographical infomation systems uses in a geospatial domain. The development of these techniques will allow us to maximize the efficiency of ressources used during the pricing process. To do so, the use of the statistical tool R will facilitate the result of the study.

Mémoire complet