Mémoire d'actuariat

Analyse sémantique et prévention
Auteur(s) KAHN Antoine
Société Gras Savoye - Willis Towers Watson
Année 2020

Résumé
Alors que nous nous targuons depuis quelques années d'être entrés dans l'ère du "Big Data", que la collecte de données sur les individus, les clients ou les assurés, devient chaque jour plus efficace et performante, nous oublions un point. De nos jours, 80% des données stockées par les entreprises, organisations ou états le sont sous la forme de texte. Toutes ces informations contenues dans différents champs textuels présentent une immense quantité d'informations non valorisées. En effet, les champs de texte libres ne peuvent être inclus dans les modèles mathématiques et plus précisément dans notre cadre, dans les modèles de quantification actuariels. Le text mining et le natural language porcesing sont des branches de l'informatique et des statistiques qui permettent de combler ce manque à gagner. Elles rendent en effet possible la conversion du texte brut exprimé dans un langage naturel vers une forme numérique exploitable et interprétable par les algorithmes. Et plus encore, cela nous permet d'incorporer directement les informations sémantiques dans des modèles prédictifs et des analyses actuarielles. Les compagnies d'assurances recueillent d'immenses quantités d'informations textuelles de manière journalière. Et cela à travers de multiples canaux comme les agents, les services clients, les emails, les réseaux sociaux, etc. Ces informations peuvent refléter une police d'assurance, des rapports d'experts traitant d'informations médicales, des analyses de sinistres et bien d'autres informations. La prolifération des données donne à l'application des technologies d'analyse sémantique sa pertinence dans ce contexte.

Abstract
While the claim to be in the big data era since a few years and that the collect of data on individuals, clients or insured became wider and more efficient every year, we omit one point. Nowaday, up to 80% of data stored by organisations is in the free text form. The data that is contained in text fields holds huge untapped value. Indeed, free and natural text fields cannot be included in a mathematical model, and more precisely in our case, in actuarial model. Text mining and natural language processing are branches of IT and statistics that help to fill this gap. They make it possible to convert plain text expressed in natural language into a digital form that can be used and interpreted by algorithms. An even more, it allows us to directly incorporate semantic information into predictive models and actuarial analyses. Insurance companies collext huge volumes of text on a daily basis and through multiple channel such as their agents, customer care centers, email, social networks, etc. The information collected includes policies, expertises and health reports, claims and complaints and many more. The proliferation of data makes the application of semantic analysis technologies relevant in this context.

Mémoire complet