Mémoires d'Actuariat

Détection d'anomalies via l'apprentissage non-supervisé : application à la fraude
Auteur(s) COULIBALY A. A.
Société Allianz France
Année 2021

Résumé
La charge relative aux indemnisations en arrêt de travail pour l'ensemble des acteurs du marché est en constante évolution ces dernières années, portée à la fois par un effet volume (hausse du nombre de déclarations) et un effet inflation (hausse du nombre de jours déclarés). Dans un contexte économique marqué par la réduction des coûts, nous nous sommes intéressés aux anomalies constatées sur la base de données relative à la sinistralité en arrêt de travail, base utilisée pour calculer les provisions mathématiques entre autres. Tout écart matériel entre les données réelles et celles utilisées pour des calculs divers peut aboutir à des résultats très éloignés de la réalité et les analyses qui en résulteront le seront également, ces sources d'erreurs peuvent donc s'avérer coûteuse pour l'entreprise. La détection de ces anomalies a été réalisée via une approche non-supervisée qui a mis en évidence un regroupement d’observations dites "atypiques". Afin de tester la pertinence des regroupements effectués l’outil de détection d’anomalies a été appliqué à un cas de détection de fraudes. Cette application a démontré le lien qui existe entre observations anormales et fraudes. Pour arriver à gérer la complexité du phénomène de la fraude une approche mixte alliant à la fois l'apprentissage supervisé et non-supervisé a été développée. En effet, il semble évident de supposer que la typologie des fraudes évolue en fonction du temps. Partant de ce constat, avoir une vision combinant un cadre supervisé dont l'objectif serait de détecter les fraudes historiques et une approche non-supervisée axée sur les nouvelles structures de fraudes paraît tout à fait naturel.

Abstract
Expenditure due to sick leave for all the players in the market have been constantly evolving over the last few years. This is due to both a volume effect "increasing in the number of sick leaves" and also an inflation effect " increasing in the number of days spent during sick leave". In an economic context marked by cost reduction we studied the outliers detected in the database of sick leave used to calculate mathematical provisions. Any material discrepancy between the real data and the data used for various calculations can lead to erroneous results and the resulting analyses can be equally erroneous. These sources of error can therefore be costly for the company. The detection of these anomalies was carried out through an unsupervised approach which highlighted a grouping of observations called "atypical". In order to challenge the relevance of the groupings made, the anomaly detection tool was applied to a fraud detection case. This application demonstrated the link between outliers and fraud. To manage the complexity of the fraud phenomenon, a mixed approach combining both supervised and unsupervised learning was developed. Indeed, it seems obvious to assume that the typology of frauds evolves over time. Based on this observation, having a vision combining a supervised framework whose objective would be to detect historical frauds and an unsupervised approach focused on new fraud structures seems quite natural.

Mémoire complet