Mémoire d'actuariat

Amélioration de la qualité des données en assurance par apprentissage automatique
Auteur(s) TARDY Julien
Société Sia Partners
Année 2018

Résumé
Alors que la qualité des données est un enjeu de plus en plus majeur pour les actuaires, les problèmes de données continuent d'être systématiquement un point bloquant dans de nombreuses études actuarielles. Qu'il s'agisse de données erronées ou absentes, ces problèmes coûtent chers aux entreprises, en termes de temps passé à nettoyer ces données et en termes d'argent. Cependant, l'apparition de nouveaux algorithmes d'apprentissage et les volumes de données grandissant pourraient amener de nombreux actuaires à repenser le problème de la qualité des données. Dans ce contexte, ce mémoire s'interroge sur la possibilité d'incorporer de l'intelligence dans une base de données au sens où une base pourrait apprendre elle-même de sa structure et arriver à détecter par elle-même une erreur qui lui est interne. Après un rappel du contexte réglementaire qui opère autour de la qualité des données, on définira dans un premier temps la démarche de notre étude visant à s'adapter à n'importe quelle base de données très complexe du fait des différentes catégories de variables et du traitement différent de ces catégories. On utilisera dans un deuxième temps des techniques d'apprentissage automatique non-supervisé afin de détecter des classes nous paraissant anormales, le non supervisé a l'avantage de ne pas nécessiter d'exemples explicites de ce qui est de bonne ou de mauvaise qualité. L'utilisation des techniques de machine learning supervisé permettra dans un troisième temps de vérifier si les classes de données potentiellement erronées le sont réellement en cherchant à prédire quelle aurait été la valeur de ces données à partir de la base de données dont on dispose. Ces résultats illustrent alors le potentiel des techniques d'apprentissage automatique pour traiter les problématiques de qualité des données et qu'un travail d'approfondissement mérite d'y être mené. Ces

Abstract
Data quality is an increasingly important issue for actuaries as data issues continue to be systematically a blocking point in many actuarial studies. Whether the data is inaccurate or missing, these problems are costly for companies , in terms of time spent cleaning data and in terms of money. However, the emergence of new learning algorithms and increasing data volumes could lead many actuaries to rethink the problem of data quality. In this context, this thesis questions the possibility of incorporating intelligence into a database in the sense that a base could learn itself about its structure and come to detect by itself an error that is internal. After a reminder of the regulatory context that operates around the quality of the data, we will first define the approach of our study to adapt to any database because of the different categories of variables and the different treatment of these categories. Secondly, unsupervised unsupervised machine learning techniques willl be used to detect classes that appear t obe abnormal, the unsupervised has this advantage of not requiring explicit examples of what is good or bad. In a third part, the use of supervised techniques will allow to verify if the potentially erroneous data clases are so by trying to predict what would hav been the value of these data from the database that we have. These results then illustrate the potential of machine learning techniques to address data quality issues and that further work is needed in that field.

Mémoire complet