Mémoire d'actuariat

Implémentation d'un modèle de détection de fraude à l'assurance dans le cadre de soins hospitaliers
Auteur(s) HULOT Deborah
Société AXA France
Année 2019
Confidentiel jusqu'au 18/02/2021

Résumé
La fraude est un phénomène qui touche de nombreux domaines, notamment en cette période de crise relative au pouvoir d'achat. Dans le système français, la fraude en lien avec l'aide aux soins s'élève entre 8 et 15 Md€, d'après une estimation du European Healthcare Fraud and Corruption Network. Cela représente une perte conséquente dans un environnement où "Tous les acteurs de l'assurance sont peu ou prou confrontés à la nécessité de réduire leurs coûts, afin d'améliorer leur S/P" décrit le président de Cegedim Insurance Solutions, Philippe Simon. L'enjeu de ce mémoire est de proposer une solution afin de détecter des comportements frauduleux lors de remboursements de soins hospitalier. Pour ce faire, l'application de méthodes de machine learning est adaptée. Les méthodes utilisées sont du type "non-supervisées" alliées à des règles déterminstes. La fraude est très souvent menée par des professionnels de santé. Les variables initialement proposées sont principalement qualitatives. Une étape de création de variables quantitatives est nécessaire. Ces dernières sont construites de manière à, d'ores et déjà, mettre en relief l'atypisme en se basant sur les distributions des observations et les règles métiers préalablement élaborées en collaboration avec des experts. Les algorithmes utilisés sont : la classification ascendante hiérarchique avec un paramétrage préalable de la métrique ainsi que du critère d'agrégation (dans notre cas, le saut minimum), le density based spatial clustering of application with noise reposant sur la définition de la densité globale de l'échantillon par le biais de deux paramètres (ε et minPts) et enfin, le local outlier factor qui génère un degré d'atypisme pour chacune des observations. Dans un cadre non-supervisé, le backtesting du modèle est un challenge qu'il a fallu appréhender par des moyens détournés tels qu'à travers la variété des algorithmes et paramétrages appliqués.

Abstract
Fraud is a phnomenon which affects many areas, specifically during these times of purchasing power crisis. In French healthcare system, fraud ranges from 8 to 15Bd€, according to an estimation of the European Healthcare Fraud and Corruption Network. This is obviously representing a massive loss in an environment where "Evevy insurance participant is more or less exposed to the necessity of reducing their cost in order to improve their claim to premium ratio" explains the CEO of Cegedim Insurance Solutions, Philippe Simon. The issue of this work is to propose a solution to detect fraudulent behavior when hospital care reimbursements ar proceeded. To do so, using machine learning methods seems appropriate. Algorithms used are unsupervised and combined with deterministic rules. Fraud is mainly carried out by medical professionals. Features made available by the reimbusement system are mostly qualitative. A step of feature engineering to create quantitative features is essential to complete the data set. They are built so that they already emphasize atypical recordings according to the distribution of the other observations and they also rely on business rules established in partnership with business experts. Used algorithms are: Hierarchical Clustering with the most suitable metrics and aggregation criteria (here, single linkage), Density Based Spatial Clustering of Application with Noise based on the definiton of the global density of the sample thanks to two parameters (ε and minPts) and, last but not least, Local Outlier Factor which produces a level of abnormality for each observation. When employing unsupervised methods, back testing the model is a challenge that has been taken up by roundabout ways such as multiplying the algorithms and parameters used.