Mémoire d'actuariat

Construction d\'un zonier en MRH à l\'aide d\'outils de data-science
Auteur(s) BERAUD-SUDREAU Guillaume
Société AXA
Année 2017

Résumé
La tarification d'assurances IARD a vu au cours des dernières années l'émergence de nombreuses méthodes innovantes d'apprentissage statistique. L'objectif de cette étude est la présentation de méthodes d'apprentissage statistique, illustrées par des exemples d'application dans le cadre de la création d'un zonier de risque en assurance MRH. Ce mémoire décrit en outre des mesures de performances des modèles actuariels créés, et des applications des méthodes d'apprentissage décrites sur des données réelles. Ce mémoire s'inscrit dans le cas général des couvertures IARD : les concepts techniques présenté (en particulier dans les parties II et III) ne s'appliquent pas exclusivement à l'assurance habitation et peuvent être utilisés par exemple dans l'assurance auto. Les conclusions obtenues peuvent également se généraliser. Afin de construire un zonier en suivant les méthodes décrites dans ce document, il est nécessaire d'utiliser un certain nombre de méthodes d'intelligence artificielle. Ces méthodes (arbres de régression et forêts aléatoires, ainsi que les Modèles Linéaires Généralisés, pour comparaison) sont donc décrites en détail. Les sous-jacents théoriques (en particulier les forêts aléatoires) sont analysés, et leur efficacité comparée. Afin de comparer des modèles hétérogènes, diverses méthodes d'estimation des performances de modèles de régression seront décrites dans ce mémoire étant destinées, entre autres, à la tarification MRH, celle-ci ainsi que les données utilisées pour nos applications numériques, seront brièvement présentes en introduction. Une application particulière, à la création des zoniers fins, est proposée et décrite en détail ; les améliorations de performance que cette technique permet d'obtenir seront également analysées.

Abstract
P&C insurance pricing has recently seen the emergence of a varity of new statistical learning techniques. This study aims at presenting such machine-learning techniques, illustrated by the creation of a high granularity geographic risk model for household insurance. This thesis covers the general case of P&C insurance pricing : the technical concepts describes (in particular in parts II and III) can be applied of instance to motor insurance. Furthermore, the conclusions can be generalized. In order to build a geographic risk model as described in this document, it is necessary to use several machine-learning techniques. These techniques (Regression Trees, Random Forest, and, for reference, Generalized Linear Models) are described in detail. The underlying theories (in particular for the Random Forest models) are analysed, and the efficiency of these techniques is assessed and compared. In order to compare heterogenous models, various methods of performance measure are presented (alongside with the necessary theoretical framework). As all the methods are, among other applications, presented in the context of household pricing, this area of actuarial science is briefly presented, with the data used for the numeric application presented. A special use-case of the methods presented in the creation of an individual risk zoning, this application and all the data necessary are presented in detail.

Mémoire complet