Mémoire d'actuariat

Eviter les jointures du relationnel pour accélerer l\'analitics en apportant un nouveau modèle en théorie des bases de données
Auteur(s) LAGNAOUI Sami
Société CARITAT
Année 2016
Confidentiel jusqu'au 22/11/2021

Résumé
Le Big Data est de plus en plus un sujet d'étude important pour les grandes entreprises, et en particulier celles dont le coeur de métier est la statistique. Les assureurs font partie de cette catégorie. Les attentes venant du Big Data sont grandes : compréhension du client, segmentation, tarification... De plus en plus de recherches sont donc menées pour tirer le plus d'information possibles des données de masse. Néanmoins plus les données grandissent, plus il devient difficile de les appréhender, de les utiliser, de les manipuler. Elles finissent donc par engendrer autant de questions qu'elles n'en résolvent. Notamment, le Big Data a remis en question le modèle qui était jusque là dominant depuis plus de trente ans en théorie des bases de données : le modèle relationnel. C'est sur ce modèle mathématique qu'ont été construit la quasi totalité des implémentations de bases de données aujourd'hui utilisées par les entreprises. Les données encore en base nécessitent beaucoup de traitements pour en extraire des variables qui seront traitées lors d'une étude statistique. Le modèle relationnel a déjà prouvé son efficacité pour ce pour quoi i l a été conçu : économie d'espace, cohérence des données complexes, variées et volumineuses, comme c'est le cas en Big Data, le modèle relationnel, de par sa conception, peut être amené à effectuer un très (pour ne pas dire trop) grand nombre d'opérations de croisement. La Big Data a donc fait apparaître de nouveaux modèles en théorie des bases de données, qui s'éloignent du modèle relationnel et qui peuvent permettre d'améliorer la complexité informatique du traitement des données. Nous verrons quels sont ces modèles et ce pour quoi ils ont été conçus. Nous allons également nous en inspirer pour construire notre propre modèle dont la particularité sera de diminuer la complexité des croisements entre les données d'une base, et nous illustrerons ces résultats par des données actuarielles issues de l'assurance santé.

Abstract
Big Data becomes a more and more important subject for companies. Especially the ones specialized in statistics. Insurers are part of that category. Expectation from Big Data are high : better understanding of the clients, clustering, pricing... The number of research consisting of extracting valuable informations from massive data. But the more data are growing, the harder it becomes to use and manipulate them. At the end, it creates as many questions as it's solving. In particular, Big Data called into question the model who was the dominant one for the previous thirty years : the relational model already proved it's efficiency regarding what is was designed for : economy of space, data consistency, transactional operations... However, for an analysis of more complex, various and voluminous data, like in Big data's case, the rational model, because of it's primary design is lidly to perform an important (not to say a too important) number of cross operations. Big data created new models in database theory, these one are different from the relational model and can help improve the computing complexity of the data processing. We are going to see what thse models are and why they were created. Moreover, we are going to take inspiration of them to create our own model which particularity will be to decrease the number of cross operations between the data in a database. Then, we are going to illustrate the results with health insurance data.