Mémoires d'Actuariat

Utilisation de données non structurées pour modéliser la fréquence incendie en MRH
Auteur(s) DUBOST M.
Société Sia Partners
Année 2021
Confidentiel jusqu'au 08/02/2023

Résumé
En assurance multirisque habitation, le risque incendie est l'une des sources principales de coût pour l'assureur. Du fait de sa fréquence relativement faible, la modélisation de ce risque est complexe et dépend fortement de la qualité de l'historique de sinistres de l'assureur. Dans le monde concurrentiel de l'assurance, mieux comprendre un risque permet de gagner en attractivité et, ainsi, d'accroître ses parts de marché. L'essor des données publiques et d'internet offrent de nouvelles sources d'information. L'objectif de l'étude est de présenter diverses techniques de récupération de données publiques (web scraping, utilisation d'API, TAL) ainsi qu'un cadre d'utilisation respectueux des sources. Dans un second temps, les données non structurées récupérées sont retraitées pour construire une base de données permettant la modélisation de la fréquence des incendies. Les méthodes classiques de modélisation en assurance sont utilisées (MLG, régression pénalisée) avec un lissage spatial pour construire un zonier sur la France à la maille commune. Cette étude se termine par la production de variables et graphiques permettant de déterminer la valeur de l'information qui peut être extraite de données publiques non structurées.

Abstract
One of the most material perils covered by Home Insurance is Fire. Modelling this risk can be particularly difficult and reliant on historical data's quality and depth. In competitive markets, a better understanding of the risk leads to better pricing, healthy business growth being conditional to such a process. The rise of public data and especially the one held on the internet offers new information sources to support this exercise. The dissertation aims at presenting several data-science techniques for data collection (scraping, use of APIs, NLP) as well as the framework to do this in a respectful manner of the data providers. As a second step, the produced unstructured data is pre-processed to build a _re frequency modelling database. Classical modelling methods are used (GLM, penalised regressions) along with spatial smoothing to build scores later displayed on mainland France maps at municipality mesh. This process ends up producing variables and plots that allow us to assess whether some value could be extracted from consolidated web-data sources

Mémoire complet