Mémoire d'actuariat

Support Vector Machines: Machine Learning, the SVM algorithm and applications in Health Insurance Pricing
Auteur(s) FRANCISCO MIGUELEZ Juan José
Société Mazars Actuariat
Année 2017

Résumé
Le développement spectaculaire des nouvelles technologies numériques, combiné à la prolifération des instruments de quantification dans tous les aspects de la vie, ont provoqué sur les 20 dernières années une explosion de la quantité de données disponibles. En outre, la complexité et l'incertitude qui caractérisent les sociétés modernes, résultant de phénomènes divers tels que la croissance démographique ou la mondialisation, n'ont cessé d'augmenter les besoins des institutions et des personnes en produits d'assurance, une tendance que l'on s'attend à voir continuer. Les compagnies d'assurance ont donc aujourd'hui l'opportunité d'implémenter des techniques statistiques modernes pour exploiter efficacement toutes ces données biométriques, économiques et sociales, de façon à améliorer leurs processus de tarification et de gestion du risque et faire face avec succès à l'incertitude croissante. Ce mémoire vise à contribuer à cet effort en analysant un modèle particulier issu de l'apprentissage automatique : on étudie la théorie des Machines à Vecteurs Support et on examine leur applicabilité à un problème de tarification en assurance santé sur le marché français. Nous introduisons premièrement la discipline de l'apprentissage automatique. Partant d'une perspective historique, nous développons une cartographie des algorithmes d'apprentissage automatiques basée sur les styles d'apprentissage et les problèmes qu'ils tentent de résoudre. Après avoir comparé la discipline à des domaines similaires tels l'informatique ou les statistiques, nous introduisons la théorie mathématique formelle qui dote de bases théoriques l'apprentissage automatique. Nous finissons ce chapitre par une discussion des oppportunités et des menaces de l'apprentissage automatique pour l'industrie assurantielle. Le chapitre suivant est consacré à la théorie des Machines à Vecteurs Support. Cette présentation est suivie d'une revue des algorithmes et des techniques numériques qui permettent l'application pratique des modèles de type Machine à Vecteurs Support, tels que l'algorithme de Minimisation Séquentielle ou l'algorithme de la Descente de Gradient Stochastique. Le chapitre 3 est dédié à l'explication des mécanismes de l'industrie assurantielle ainsi qu'à la présentation de l'échantillon de données d'assurance santé sur lequel nous réaliserons des expériences. Ce chapitre nous permet de justifier notre approche de modélisation dans le dernier chapitre. Finalement, nous décrivons au 4e chapitre une série d'expériences que nous avons réalisé pour évaluer la performance prévisionnelle ainsi que computationnelle des Machine à Vecteurs Support, que nous comparons à un algorithme de pointe en apprentissage automatique, les Forêts Aléatoires. Nos résultats montrent que, malgré leurs bonnes propriétés théoriques, les Machines à Vecteur Support sont dépassées par les Forêts Aléatoires en termes de coût computationnel et de capacité prévisionnelle. Nous testons également un modèle linéaire de type ensemble qui nous permet de combiner efficacement les prévisions optimales de la Machine à Vecteurs Supports et de la Forêt Aléatoire.

Abstract
The astonishing development of digital technologies coupled with the proliferation of measurement tools in all facets of life has provoked an explosion of the quantity of human-generated data over the last 20 years. In addition, the complexity and uncertainty of modern societies, resulting from phenomena such as demographic growth or economic globalization, have steadily increased the need for insurance arrangements, a trend which is expected to continue into the foreseeable future. Insurance providers have thus the opportunity to implement modern data analysis to leverage all biometric, economic and social data available in order to improve their pricing and risk management processes and cope with the increasing uncertainty they are facing. This memoir is attempt to contribute to this effort by exploring one particular data analysis model coming from the field of Machine Learning: we study the theory of Support Vector Machines and examine their applicability to the problem of pricing Health Insurance contracts in the French market. First we introduce the discipline of Machine Learining to the reader. Starting with an historical perspective of the field, we then develop a cartography of Machine Learning algorithms based on learning styles and problems addressed. After comparing the discipline to sister fields such as Computer Science and Statistics, we introduce the formal mathematical theory underpinning Machine Learning. We finish off this chapter by discussing the opportunities as well as the threats of Machine Learning for the insurance business. The following chapter is dedicated to the theory of Support Vector Machines and the analysis of their strong theoretical foundations. The theoretical presentation is followed by a review of algorithms and numerical techniques that enable the practical implementation of the Support Vector Machine model, such as Sequential Minimal Optimization or Stochastic Gradient Descent. Chapter 3 is dedicated to the mechanics of the insurance industry and the presentation of the Health Insurance dataset we will be working with respectively. This chapter enables us to substantiate our modelling approach. Finally, in chapter 4 we describe a series of experiments we have undertaken to assess both the predictive and the computational performance of the Support Vector Machine, which we benchmark against a cutting-edge Machine Learning algorithm, the Random Forest. Our findings show that, despite their theoretical soundness, Support Vector Machines are outperformed by Random Forests both in terms of computational cost and predictive power. We also test an ensemble linear model in which we combine the predictions of both the optimal Support Vector Machine and the optimal Random Forest.

Mémoire complet