Mémoires d'Actuariat

Analyse des déterminants de l'intensité d'entrée en dépendance à l'aide de méthodes de régression pénalisée
Auteur(s) DEFRANSURE M.-A.
Société Prim'Act
Année 2021

Résumé
Ce mémoire a pour vocation de comparer des techniques de régression classique avec des techniques de régression pénalisée dans le cadre de la modélisation de lois d'entrée en dépendance sur l’ensemble des patients passés à l’hôpital entre 2008 et 2013. Dans une première partie, la définition, le contexte et le cadre réglementaire de l’assurance dépendance ont été rappelés. Par ailleurs les causes médicales a priori d’entrée en dépendance ont été listées en s’appuyant sur un certain nombre d’études médicales reconnues afin de comparer à postériori la justesse de sélection des techniques d’apprentissage automatique. Une modélisation de Cox avec sélection de variables via une méthode pas à pas a ensuite été menée pour modéliser les taux d’entrée en dépendance. Dans la partie suivante, un jeu de données a été simulé afin de comparer, dans le cadre de données censurées et corrélées, différentes méthodes de régressions pénalisées en termes de qualité de sélection et justesse de prédiction des estimateurs. L'influence de la taille des bases, des corrélations entre variables, les techniques d'échantillonnage utilisées, le choix des mesures de prédiction et le taux de censures ont notamment été mesurés. La dernière partie s'attache enfin à effectuer l’étude de modélisation avec les techniques de régression pénalisée les plus appropriées, au regard de l’étude empirique précédente, sur les bases de données médicales du PMSI et de comparer les résultats avec ceux obtenus dans la première partie. La conclusion de cette partie est que la justesse de prédiction des estimateurs obtenus grâce aux techniques d'apprentissage supervisé sont presque aussi bonnes que celles obtenues via la technique classique mais que ces procédures ont l'avantage d'être extrêmement plus rapides à être exécutées et relativement plus simples à mettre œuvre.

Abstract
The aim of this paper is to compare classical regression techniques with penalised regression techniques in the context of modelling the incidence rate of dependency on all patients who have been in hospital between 2008 and 2013. In the first part, the definition, the context and the regulatory framework of LTC insurance were recalled. In addition, the a priori medical causes of dependency were listed, based on a number of recognised medical studies, in order to compare the accuracy of the selection of machine learning techniques a posteriori. Cox modelling with variable selection via a stepwise method was then conducted to model the dependency rates. In the next part, a dataset was simulated in order to compare, in the framework of censored and correlated data, different regression methods penalised in terms of selection quality and prediction accuracy of the estimators. The influence of the size of the databases, the correlations between variables, the sampling techniques used, the choice of prediction measures and the censoring rate were notably measured. Finally, the last part is devoted to carrying out the modelling study with the most appropriate penalised regression techniques, with regard to the previous empirical study, on the PMSI medical databases and to compare the results with those obtained in the first part. The conclusion of this part is that the predictive accuracy of the estimators obtained with the supervised learning techniques are almost as good as those obtained via the classical technique but that these procedures have the advantage of being extremely fast to be executed and relatively simpler to implement.

Mémoire complet