Mémoires d'Actuariat

Comprendre et prédire l'absentéisme grâce au Machine Learning et Forecasting
Auteur(s) TRAVAILLOT F.
Société Addactis
Année 2022
Confidentiel jusqu'au 08/03/2022

Résumé
Depuis ces dernières années, l’absentéisme au sein des entreprises du secteur privé a connu une croissance et ce, dans quasiment l’ensemble des domaines d’activité. Les coûts liés à ce phénomène ont des impacts importants, que ce soit en termes d’organisation, de rendement pour les entreprises, mais également en termes budgétaire ou en gestion du risque pour les assureurs et la Sécurité Sociale. Comprendre et prédire l’absentéisme semble donc inévitable afin de maîtriser au mieux ce risque. L’utilisation des outils de Machine Learning dans une première partie, comme les arbres CART ou encore les modèles de forêts aléatoires, permet dans un premier temps de segmenter le portefeuille selon le risque d’absentéisme, d’étudier les variables les plus influentes dans la modélisation du taux d’absentéisme et de proposer de premières prédictions de ce taux. Cependant l’absentéisme est un phénomène qui évolue au cours du temps. La rigidité des modèles présentés implique un manque de robustesse pourtant nécessaire pour leur exploitation au cours du temps. L’implémentation de modèles basés sur les séries temporelles permet ainsi d’étudier la prédiction de l’absentéisme sous un nouvel angle en s’intéressant à la structure d’évolution du taux d’absentéisme au cours du temps. L’ajout de variables explicatives appelées régresseurs apportant de l’explicabilité aux prédictions du taux d’absentéisme permet ainsi d’obtenir de nouvelles modélisations plus flexibles définies à partir de mesures d’erreur adaptées à la problématique.

Abstract
In recent years, absenteeism in private sector companies has increased in almost all areas of activity. The costs related to this phenomenon have important impacts, whether in terms of organization, performance for companies, but also in terms of budget or risk management for insurers and Social Security. Understanding and predicting absenteeism therefore seems inevitable in order to better control this risk. The use of Machine Learning tools in a first part, such as CART trees or random forest models, makes it possible to segment the portfolio according to the risk of absenteeism, to study the most influential variables in the modeling of the absenteeism rate and to propose first predictions of this rate. However, absenteeism is a phenomenon that evolves over time. The rigidity of the models presented implies a lack of robustness, which is necessary for their exploitation over time. The implementation of models based on time series allows us to study the prediction of absenteeism from a new angle by looking at the evolutionary structure of the absenteeism rate over time. The addition of explanatory variables, called regressors, bringing explicability to the predictions of the absenteeism rate allows us to obtain new and more flexible models defined from error measures adapted to the problem.

Mémoire complet