Mémoire d'actuariat

L\'open Data et les réseaux neuronaux : vers une amélioration de la prédictibilité des sinistres ?
Auteur(s) VICAIRE Edouard
Société Deloitte
Année 2017
Confidentiel jusqu'au 15/11/2019

Résumé
L’avènement des Nouvelles Technologies d’Information et de la Communication ont permis l’utilisation, et la collecte de nouvelles données, ce qui a accru à la fois leurs volumes mais aussi la vari ́et ́e de ces dernières. Les assureurs ont pu alors ajouter à leurs canaux traditionnels, une manne importante de données permettant d’enrichir leurs modèles statistiques. Cependant la méfiance des clients quant à l’utilisation de ces données personnelles menace la collecte de celles-ci. Fort heureusement, un mouvement de longue haleine cherchant à promouvoir l’utilisation de données en libre accès peut palier ce futur manque : l’open data. Celui-ci, encouragée par l’État et par la réglementation européenne, est un premier pas vers une plus vaste révolution numérique. Par ailleurs la concurrence du secteur de l’assurance s’est particulièrement accrue. De nouveaux paramètres sont venus entrer en jeu pour flexibiliser le marché : Loi Hamon, multiplication de la bancassurance, assurance dématérialisée. . . réduisant ainsi la marge de manœuvre des acteurs traditionnels du secteur. De plus, l’entrée des GAFA (Google, Amazon, Facebook, Apple) se fait de plus en plus pressante sur ce marché. Cette modification d’ensemble du marché de l’assurance vient à changer l’attitude des assureurs et des mutuelles, lesquels veulent réduire la sinistralité de leurs portefeuilles clients sans pour autant réduire le nombre de ses clients. Dans le même temps, grâce à l’amélioration des performances de l’informatique et de la puissance de calcul, les réseaux neuronaux deviennent l’une des familles d’algorithmes les plus fortement étudiée en data science, grâce à ces nombreux avantages tant en termes de classification qu’en terme de prédiction. Au travers de ce mémoire, l’utilisation des réseaux de neurones traditionnels (perceptions multicouches) mais aussi d’algorithmes de segmentation (gaz neuronaux croissants) viendra démontrer la capacité de l’open data à améliorer la prédictibilité de la sinistralité d’un assureur. Ce dernier pourra alors, en fonction des caractéristiques propres de chaque client mais également de son environnement, prédire le degré de risque d’un individu sur une journée type. L’étude se fonde sur un portefeuille d’assurance automobile. L’approche du mémoire sera alors de segmenter le portefeuille à l’aide des données fournies par l’assureur via un algorithme peu fréquent mais surtout d’enrichir cette segmentation par l’apport de l’open data. L’objectif ́étant de fixer les degrés de risque intra-personnel pour les individus. Par la suite, nous utiliserons l’environnement direct et externe de l’assuré pour tenter de prédire sa sinistralité globale. L’apport de la connaissance statistique aura pour objectif de réduire la sinistralité du portefeuille grâce à des actions ciblées.

Abstract
The advent of the information and communications technologies (ITC) has released the harvest and furthermore the use of new data, which has developed their volumes and the diversity of the latter. Insurers have added many data to their statistical models. However, customers’ fear about the use of personal information can threaten the col- lection of these data. Fortunately, a long-term effort to promote the use of open access data can offset this next gap : the open data movement. In addition, competition from the insurance sector has particularly increased. New set- tings have change the market to make it more flexible : the Hamon law, bancassurance eruption, digitalized insurance ... thus reducing spaces for the traditional players in the sector. In addition, the GAFA arrival is becoming more and more pressing in this market. This change in the overall insurance market is disrupting the attitude of the insurers, which want to reduce the claims of their client portfolios without reducing its volume. Meanwhile, the improved performance of computing power have sped up neural networks development. They become one of the most widely studied algorithm families in data science, thanks to these many advantages in term of classification and prediction. This paper will show the use of traditional neural networks (multilayer perceptron) and also of classification algorithms (growing neural gas) in order to demonstrate the ability of open data to improve claim predictability. The foundation of the study is a car insurance portfolio from a partner. This papier’s approach is to segment portfolio using data provided by a partner via an uncommon algorithm but above all to enrich this segmentation by the contribution of open data. The aim is to set the levels of own risk for individuals. Subsequently, we will use the customers direct and external environment to try to predict its overall claim experience. The contribution of statistical knowledge can reduce the claim of the portfolio through targeted actions.