Mémoire d'actuariat

Processus de tarification Non-Vie sur des données chiffrées & anonymisées
Auteur(s) POINSIGNON Thomas
Société Milliman
Année 2019

Résumé
La récente démultiplication de la quantité de données générées, stockées et analysées par les assureurs afin d'établir leurs politiques tarifaires et de souscriptions, a conduit à l'émergence de nouveaux besoins : tant du point de vue réglementaire, avec la mise en œuvre dans le cadre européen du règlement général sur la protection des données (RGPD), que dans la perspective de proposer de nouveaux services sur le marché (risque cyber). Les travaux réalisés dans le cadre de ce mémoire sont ainsi consacrés au développement et à l'analyse de méthodes actuarielles dans un cadre de sécurité par défaut. L'objectif étant d'étendre les concepts et les modèles mathématiques élémentaires employés lors de l'élaboration de modèles de tarification d'assurance non-vie à leurs utilisations sur des données sécurisées conformément aux exigences de la réglementation. Nous nous concentrons tout d’abord sur l'élaboration d'une procédure de chiffrement et de calculs permettant d'effectuer une régression linéaire simple sur des données cryptées, sans jamais les déchiffrer au cours du processus. En somme, être capable de calculer une régression linéaire sur des données chiffrées au préalable sans avoir connaissance des clefs de déchiffrement et où seul leur propriétaire est en mesure de décrypter les résultats obtenus. Nous nous intéresserons ensuite à une méthodologie alternative: l’anonymisation du portefeuille d'assurés par l'agrégation des polices en utilisant des méthodes d’apprentissage non-supervisées. On obtient ainsi pour chaque partition formée un nouvel individu anonyme et représentatif de son groupe. L’idée étant de tarifer une assurance responsabilité civile automobile (modèle GLM coût-fréquence) sur ces données sécurisées et d’analyser la performance du processus en comparant ces résultats à ceux issus de ce même modèle mais calibré sur des données non anonymisées.

Abstract
The recent increase in the amount of data generated, stored and analyzed by insurers to establish their pricing and underwriting policies has led to the emergence of new needs. Both from a regulatory point of view, with the recent implementation in the European framework of the General Data Protection Regulation (GDPR), and with a view to offering new services on the market (cyber risk). The work carried out in this paper is thus devoted to the development and analysis of actuarial methods within the default security framework. The objective is therefore to extend the elementary mathematical concepts and models applied when developing non-life insurance pricing models to their use on secure data in accordance with regulatory requirements. We first focus on developing an encryption procedure to perform a simple linear regression on encrypted data without ever having to decrypt them during the process. In other words, being able to calculate a linear regression on a pre-cyphered database without having knowledge of the decryption keys so only the owner has the possibility to decrypt the obtained results. In a second step, we will focus on an alternative methodology to data encryption: anonymization of the insured portfolio by aggregating policies using non-supervised learning methods (OPTICS, K-Means, etc.). We will then obtain for each cluster a new anonymous observation representative of its cluster. Our idea is then to carry out the pricing of an automobile civil liability insurance (GLM cost-frequency model) based on data thus secured. In order to analyze the performance of this process, we will compare these results with those obtained from this same pricing model but calculated on non-anonymized data.

Mémoire complet