Mémoires d'Actuariat

Unstructured Document Analysis In Insurance
Auteur(s) UTHAYASOORYIAR B.
Société SCOR
Année 2021

Résumé
L’industrie de l’assurance regorge de tout type de données, des tables très structurées comme des rapports médicaux non structurés. Chacune de ces sources peut contenir des informations vitales pour une appréciation du risque précise, mais aujourd’hui, la façon d’acquérir la donnée chez les assureurs n’est pas optimisée. Avec les récentes avancées en digitalisation et en Deep Learning, la façon de capturer la donnée peut être largement améliorée. Cela peut présenter plusieurs avantages pour les assureurs, car l’acquisition plus rapide d’une donnée plus fournie permet une appréciation du risque plus fine. Dans cette mesure, ce mémoire présente d’abord la mise à contribution d’une donnée riche à travers la conception d’un calculateur de mortalité pour les personnes avec un historique de cancer de la thyroïde. Cette étude montre l’intérêt d’investir dans une capture de donnée accrue pour une meilleur appréciation du risque, dans un contexte de souscription inclusive. Ensuite, une deuxième partie présente des méthodes d’amélioration de la capture de donnée dans des documents PDF avec des fonctionnalités comme l’extraction de tables, la classification de pages, l’analyse de structure (layout) ainsi que la détection et reconnaissance d’écriture manuscrite. Pour ce dernier sujet, sachant que les données assurantielles contenant de l’écriture manuscrite peuvent être sensibles, un outil de génération de donnée a également été développé. Ce module permet de créer une donnée synthétique imitant les documents d’assurance réels. Dans ces documents fictifs, une écriture manuscrite synthétique est également générée pour imiter le remplissage des documents par un assuré, en utilisant des méthodes de Deep Learning.

Abstract
The insurance industry is overflowing with all kinds of data, from structured tables to unstructured scanned medical reports. Each of these may contain vital information for risk assessment, but nowadays, the way we acquire this data is not optimized. With recent advances in digitization and in Deep Learning models, the way we capture data can greatly be improved. This can be beneficial for insurers as capturing more data quicker allows a model to better learn the distribution that is studied, and thus better assess its underlying risk. To this extent, this thesis presents a way of putting rich data into practice for a finer risk assessment through the conception of a mortality calculator for people with a history of thyroid cancer. This first study shows the benefits of improving data capture methods for a more precise risk assessment, in a context of inclusive underwriting. Then, a second part presents methods to improve data capture in PDF documents through features like table extraction, page clustering (or page classification), layout analysis, handwritten text detection and recognition. For the latter, as insurance data containing handwritten text may be sensitive, a data generator module was also developed. This module allows the creation of synthetic data mimicking real-life insurance forms. These forms are filled with a fake but realistic handwritten information that was generated using a deep learning model, to imitate the information filled by an actual applicant.

Mémoire complet