Mémoire d'actuariat

Text mining et reconnaissance d'écriture appliqués à l'assurance
Auteur(s) HAIK Isaac
Société Milliman
Année 2017

Résumé
Depuis quelques années, les assureurs ont commencés une transformation digitale profonde de leurs services. Cette transformation, accompagnée de l'émergence des nouvelles techniques d'analyse et de prédiction, vient impacter la façon de penser l'assurance. Ainsi, l'actuaire d'aujourd'hui est amené à s'approprier les outils et méthodes de "l'intelligence artificielle" afin d'en maîtriser les risques, mais surtout d'être en adéquation avec les nouveaux besoins des assurés de plus en plus connectés. Cette connectivité, de nombreux acteurs du marché de l'assurance l'exploitent déjà en collectant de nouvelles données issues par exemple des télématiques. Cependant, de nombreuses données restent encore peu exploitées. Ainsi, il n'est pas rare qu'un constat automobile, un rapport d'export ou un certificat médical soit stocké sous forme numérique mais pas directement exploité en tant que donnée. Le caractère non structuré mais parfois également la nature du document (scanné) empêchent une utilisation directe de l'information. L'exploitation de ces dernières passe alors par une analyse humaine et aide l'agent à prendre une décision (un remboursement, déclenchement d'une expertise, etc.). L'objectif de ce mémoire est ainsi de proposer une méthode d'analyse automatique de document. Commençant par discerner les différents types de documents (tapuscrit, manuscrit, digital), nous nous intéressons à la compréhension des méthodes actuelles permettant de traiter des documents tapuscrits. Notre recherche mettant en évidence peu de travaux de reconnaissance de texte calligraphié, nous nous focalisons alors sur la reconnaissance de ces derniers. Mon mémoire présente ainsi l'élaboration et le calibrage d'un modèle de réseau de neurones profonds convolutionnels en se basant sur la littérature récente. Nous présentons ainsi les premiers résultats de nos tests et mettons en avant le potentiel d'une telle méthodologie en prenant soin d'expliquer, point par point, son fonctionnement mathématique. Enfin nous présentons le potentiel d'analyser automatiquement des données sémantiques extraites afin d'améliorer par exemple la qualité des prestations des assureurs.

Abstract
For some years, insurers have been beginning a digital transformation of their services. This transformation, along with the emergence of new analysis and prediction technologies, questions the daily work of an actuary. Thus, tools and methods linked to artificial intelligence have to be appropriated by actuaries in order to control their risks. Several actors of the insurance market have been already drawing benefit from this digital transformation by using new data provided for instance by telematics. Moreover, a lot of data are still unexploited. Indeed, it is not unusual that claim reports, expert reports or medical certificates are stored numerically. Te unstructured nature of those documents (scanned) prevented them from being directly used. Exploitation of these documents is usually led manually by human analysis to help the agent in taking decisions (claim management, expertise, etc.). The goal of this thesis is to introduce an automatic analysis methods of documents. Starting by slightly differentiating documents: typescript, handwritten, digital, we focus on the understanding of actual methods. Then, regarding the handwritten documents analysis, we noticed that research is still in progress on that field that the reason why we decided to dedicate one part on that issue. We indeed developed and trained our own convolutional neural network. Aware of the complexity of such model, we pay attention to detail the mechanism of those Deep Learning techniques. Afterwards, we highligh benefits of such method to extracted semantic information from scanned documents. Methodologies to finally exploit text is introduced as a second main part of this thesis. We indeed present a concrete application of text mining.

Mémoire complet