Mémoire d'actuariat

Prédiction de la gravité des accidents corporels de la route dans le cadre de l'Open Data
Auteur(s) NEJAD Saman
Société RCI Bank and Services
Année 2019
Confidentiel jusqu'au 28/02/2021

Résumé
L'ouverture de données publiques en France dans le cadre global de l'Open Data est une véritable aubaine pour de nombreux acteurs de l'économie, notamment ceux évoluant dans le secteur de l'assurance. Notre attention se portera ici sur les bases de données des accidents corporels de la circulation désormais accessibles à tous, ceci tout en respectant la vie privée des usagers impliqués dans ces accidents en diffusant seulement une partie des données des "Fichiers BAAC" (Bulletins d'Analyse des Accidents Corporels). Avec la hausse notamment du coût des sinistres corporels graves constatée depuis plus de 10 ans par certains réassureurs et liée au contexte réglementaire, avoir accès à ces données est une opportunité de mieux appréhender la gravité de ces accidents. En assimilant les sinistres corporels graves automobiles aux accidents mortels de la route de par leur niveau de gravité et de leur rareté, la modélisation prédictive des accidents mortels de la route à travers un score réalisé, tout d'abord via une régression logistique, permettra de ce fait de modéliser la gravité des sinistres corporels automobiles. Avec l'essor des méthodes de machine learning, on tentera d'avoir une autre approche dans la modélisation prédictive de la gravité des accidents avec deux méthodes ensemblistes différentes basées sur l'agrégation d'arbres de décision qui sont les forêts aléatoires et les "arbres boostés", plus précisément l'algorithme du XGBoost dans notre cas. Suite à une comparaison des différentes méthodes à travers leurs performances, leurs avantages et leurs inconvénients, on essaiera d'illustrer tout d'abord les usages et applications de ces données en Open Data et de ces scores construits notamment dans le domaine de la prévention et de l'assistance à l'heure du développement d'offres d'assurance télématique et de la mise en place obligatoire du eCall ("emergency call") sur l'ensemble des véhicules produits après avril 2018. Pour finir, nous évoquerons les limites de notre approche de notre jeu de données tout en apportant des pistes d'amélioration et des éléments de réponse.

Abstract
The open public data in France as part of the Open Data framework is a real opportunity for various players in the economy, especially those evolving in the insurance industry. Our attention will be focused here on database of personal injury accidents now available to all, while respecting the privacy of the users involved in these accidents by releasing only part of the data from the "BAAC Files" (Bulletins d'Analyse des Accidents Corporels, i.e., analysis bulletin of road traffic injury accidents). With the increase in the cost of serious bodily injury claims, which has been observed for more than 10 years by some reinsurers and related to the regulatory context, having access to these data is an opportunity to better understand the severity of these accidents. By assimilating the serious bodily injury claims to fatal road accidents by their level of severity and rarity, the predictive modeling of fatal road accidents through a score realized, first of all via a logistic regression, will make it possible to model the severity of car bodily injury claims. With the rise of machine learning methods, we will try to have another approach in the predictive modeling of the severity of accidents with two different holistic methods which are the random forests and the "boosted trees", more precisely the algorithm of the XGBoost in our case. Following a comparison of the various methods through their performances, their advantages and their disadvantages, we will first try to illustrate the uses and applications of this data in Open Data and these scores built especially in the field of prevention and assistance when developing telematics insurance offers and the mandatory implementation of eCall ("emergency call") on all vehicles produced after April 2018. Finally, we will discuss the limits of our approach and our dataset while bringing improvment leads and elements of answer.