Mémoire d'actuariat

La détection des fraudes à l\'assurance
Auteur(s) KARSENTY Jonathan
Société PwC
Année 2016

Résumé
La fraude est une problématique bien connue des assureurs à laquelle toutes les branches de l'assurance sont exposées. Détecter efficacement les fraudes permettrait une diminution des primes, des provisions techniques et in fine du capital réglementaire sous Solvabilité II. Outre ces aspects actuariels, la détection de fraude permettrait aussi, à travers la diminution des primes, une compétitivité accrue sur le marché de l'assurance. De nos jours, les assureurs indemnisent encore beaucoup trop de sinistres frauduleux. Les chiffres de l'ALFA (Agence pour la Lutte contre la Fraude à l'Assurance) le démontrent, ils estiment l'indemnisation de sinistres frauduleux (en France) à 2,8 milliards d'euros sur l'exercice 2013 alors que seulement 8% (en montant) des fraudes à l'assurance sont détectées. Ce chiffre s'explique par le fait que, pour la plupart des assureurs, les sinistres ne sont expertisés que sous la forte suspicion de leurs gestionnaires de sinistres. Nous proposons dans ce mémoire une première démarche : développer une méthodologie permettant de détecter les fraudes en amont du versement de l'indemnisation lors de la déclaration du sinistre. Il existe un réel problème en matière de données dans le cadre de la fraude à l'assurance. En effet, la fraude n'est avérée que si une expertise du sinistre est effectuée. Les données enregistrées dans les bases des assureurs ne sont donc pas totalement fiables car conditionnées à la suspicion des gestionnaires de sinistre. Afin de pallier ce problème, nous développons donc les méthodes d'apprentissage non-supervisées (ne nécessitant pas de connaître, a posteriori, la variable à modéliser, ici : la variable binaire "fraude") de RIDIT et de PRIDIT. Nous utilisons la méthode de RIDIT afin de calculer un score de suspicion de fraude pour chaque variable. Cette méthode n'opérant à l'origine que sur des variables catégorielles, nous prolongeons cette méthode (sans perte de précision) aux variables continues. Après l'application du score de RIDIT sur chacune de nos variables, nous obtenons une matrice de scores avec les individus en lignes et les variables en colonnes. Nous utiliserons alors la méthode de PRIDIT afin de calculer un score global de fraude par individu. Nous aboutissons enfin à une classification des sinistres en tant que fraude ou non-fraude, à une évaluation sur un échantillon de données test afin de valider notre démarche ainsi qu'à une critique de la méthodologie.

Abstract
Insurance fraud is a growing issue for all insurance companies, affecting every line of business. As fraud cuts profits for insurers, being able tot detect them would allow lower premiums, decrease best estimate liabilities and the solvency capital requirement under Solvency II. Besides these actuarial aspects, fraud detection woukd also, through lower premiums, increase competitiveness in the insurance market. nowadays, insurers still pay too many fraudulent claims. Indeed, ALFA (The French insurance fraud bureau) estimates fraudulent claim payments (in France) to be 2.8 billion euros in 2013 ; however only 8% of this amount was detected as fraudulent claims. These numbers can explained by the fact that most insurers would only audit claims under the strong suspicion of their claim handlers. Therefore, in this thesis a methodology will be presented to detect fraud as soon as the claim is notified and before any payment is made. Accurate detection of insurance fraud is hampered by a lack of quality data. Insurance fraud is not proven until an audit of the claim is made. Data stored into insurers' databases are not completely reliable because tey are conditional upon claim handlers'suspicion. To overcome this issue, we will develop non-supervised learning methods : RIDIT and PRIDIT methods. The main advantage of these methods is that they do not require knowing, a posteriori, the variable to model (in this case, the binary variable "fraud"). We first start by using the RIDIT method to calculate a fraud suspicion score for each variable. As RIDIT only applies to categorical variables, we extended it to continuous variables (without loss of accuracy). After applying RIDIT scoring for each variable, we obtain a fraud suspicion score matrix. We use the PRIDIT method to obtain an overall fraud suspicion score for each claim. According to the score, we are able to classify claims as fraudulent or non-fraudulent, evaluate those methods on a test sample in order to validate our approach and perform a review of the methodology.

Mémoire complet