Mémoire d'actuariat

Utilisation des données télématiques pour l'analyse de la sinistralité automobile
Auteur(s) CHOW Christian
Société SOGECAP
Année 2019
Confidentiel jusqu'au 24/01/2021

Résumé
L'assurance automobile est un des domaine de l'assurance IARD ayant à faire face au plus grand nombre de défis conjoncturels en 2018. En effet, les assureurs doivent s'adapter au marché très concurrentiel, à l'instabilité des portefeuilles et à l'augmentation des coûts de remboursement des sinistres. Afin de se distinguer de leurs concurrents, les assureurs peuvent s'appuyer sur les récentes innovations technologiques pour construire l'assurance de demain. En effet, l'accélération des communications permet aux assureurs de capter un nouveau type de données, ce qui favorise notamment le secteur automobile où de nouvelles offres innovantes voient le jour, et ce, afin de proposer une alternative au schéma classique de tarification. Le but de l'étude est de s'appuyer sur les données télématiques d'un assuré et les méthodes d'apprentissage statistique pour prédire la probabilité d'avoir un sinistre de cet assuré. Il sera alors possible de proposer diverses applications comme la construction d'un score qualifiant la dangerosité dans la manière de conduire de l'assuré. Pour ce faire, la première partie du mémoire pose le cadre de l'étude, et notamment du marché de l'assurance automobile connectée. La deuxième partie décrit les données brutes à notre disposition, ainsi que les étapes de traitement appliqués dessus afin de constituer la base de donnée de l'étude. La troisième partie décrit les principes de l'apprentissage statistique, en s'attardant sur le XGBoost, un modèle combinant le gradient boosting et les arbres de décisions. La quatrième partie propose des applications découlant directement des résultats du processus d'apprentissage statistique.

Abstract
Cars insurance is one of the non-life insurance area which faces the greatest number of business challenges in 2018. Insurers have to adapt to a very competitive market, portfolio instability, and to increase in claims' costss. In order to distinguish themselves from their competitors, insurers can lean on recent technological innovations to build the insurance of tomorrow. Indeed, the acceleration of communication can help insurers to gather a new type of data, called telematic data, allowing the access to a better customer knowledge, which especially favors car sector where new innovative products emerge to offer an alternative to the traditional pricing scheme. The purpose of this study is to make use of an insured's telematic data and machine learning methods to rpedict the probability of a given insured to have a claim. It will then be opssible to offer various applications such as the construction of a score to link behaviour and claims. The first part of the paper lays down the framework of the study, focusing on the connected insurance car market. The second part describes the available raw data, as well as preprocessing steps applied to it to form the database of the study. The third part describes the principles of statistical learning, focusing on the XGBoost, a model combining gradient boosting and decision trees. The fourth part provides methods to visualize the results. Finally, the last part explores applications directly derived from the results of the statistical learning process.