Mémoires d'Actuariat

Cadre éthique de l'utilisation des techniques de data sciences en actuariat
Auteur(s) LHENRI F., MAISNIER N.
Société Malakoff Humanis
Année 2021

Résumé
L’essor de la data science fait émerger de nouvelles données et techniques de traitement. De par leur métier de gestionnaire du risque, les assureurs et les actuaires peuvent fortement bénéficier de ces innovations notamment pour affiner leurs modèles de prédiction du risque. Néanmoins, les gains attendus ne doivent pas occulter les risques inhérents portés par ces nouvelles technologies qui nécessitent la mise en place d’un cadre éthique de l’utilisation de l’intelligence artificielle et du big data en assurance. Afin de vérifier si les technologies de data science peuvent être en pratique utilisées de façon éthique, sans que cela n’affecte les bénéfices attendus, un cas d’usage a été étudié : apparier les données de l’open data de santé avec celles de l’assureur en conformité avec les principes réglementaires et éthiques, afin de prédire le risque de décès et ainsi d’améliorer le provisionnement en assurance prévoyance. Pour ce cas d’usage, la base Open DAMIR a été choisie car elle propose des données anonymisées de remboursements de l’assurance maladie obligatoire. Ces données ont été appariées avec celles de l’assureur. Par ailleurs, le modèle ayant pour cible la prédiction d’événements rares, il a été nécessaire de retravailler les données en effectuant un rééchantillonnage en amont de l’application de l’algorithme prédictif. Au final, la comparaison entre la prédiction et les sinistres réels démontre que l’utilisation des données d’open data couplée aux techniques de machine learning permet d’aboutir à un provisionnement bien meilleur que celui obtenu par les tables réglementaires, et ce, même en respectant un cadre éthique et réglementaire contraignant. Mots clefs : data science, big data, open data, intelligence artificielle, machine learning, RGPD, provisionnement risque décès, prédiction décès, imputation de valeurs manquantes, rééchantillonnage, k Nearest Neighbors, forêts aléatoires, réseau de neurones, régression logistique, machines à vecteurs de supports, analyse discriminante, boosting.

Abstract
The rise of data science brings out new data and processing techniques. Because of their risk management profession, insurers and actuaries can greatly benefit from these innovations, specifically to refine their risk prediction models. Nevertheless, the expected gains must not obscure the inherent risks induced by these new technologies which must be addressed and require the implementation of an ethical framework for the use of artificial intelligence and big data in the insurance sector. In order to check whether data science technologies can actually be used in an ethical manner, without this affecting the expected benefits, a use case has been studied: matching data from open health data sources with insurer data, in compliance with the ethical and regulatory principles, in order to predict the risk of death. For the purposes of this use case, the Open DAMIR database has been chosen, since it provides anonymized data relating to compulsory health insurance reimbursements. This data was then matched with the insurer’s data. Furthermore, since the model aims at predicting rare events, it has been necessary to rework the dataset, by resampling data prior to applying the predictive algorithm. At the end of this work, the comparison between the prediction of the model and the claims actually recorded shows that the use of open data along with machine learning techniques, makes it possible to obtain a much better provisioning than the one obtained by using regulatory mortality tables, even when maintaining strict compliance with a heavy ethical and regulatory framework. Keywords: data science, big data, open data, artificial intelligence, machine learning, GDPR, provisioning for death risk, death prediction, imputing missing values, resampling, k Nearest Neighbors, Random Forest, neural networks, logistic regression, support-vector machines, discriminant analysis, boosting.

Mémoire complet