Comment identifier les besoins des assurés en santé et en prévoyance ? Comment cibler les « bons » programmes de prévention, adaptés aux différents segments de portefeuilles, et permettant ainsi de réduire les risques à court ou moyen terme ?
et Cécile Paradis, actuaire IA, directrice produits santé et prévoyance, Actuaris
Dans cet article, nous abordons les trois axes suivants :
Quels sont les enjeux de la prévention ?
La définition de la prévention regroupe plusieurs notions à intégrer dans notre étude :
Sur le marché de l’assurance santé et prévoyance, la prévention est aujourd’hui un atout différenciant entre les acteurs. Elle fait partie des moyens de fidélisation des assurés, par l’instauration d’une relation de confiance et la mise à disposition de services à haute valeur ajoutée. La prévention peut également être envisagée comme un outil de gestion du risque avec des programmes ciblés, qui répondent à des besoins identifiés pour réduire le risque à court ou moyen terme.
Lorsqu’un acteur souhaite proposer un programme de prévention, il doit répondre aux quatre questions suivantes :
Pour proposer une solution/un service en adéquation avec les besoins des assurés et créer les conditions favorables à la réussite de programmes de prévention, il est fondamental de traiter ces quatre enjeux.
Comment utiliser les bases de données relatives aux assurés et à leurs prestations santé pour proposer des actions de prévention ciblées ?
1) Données et objectifs
Dans cette étude, nous nous sommes intéressées au ciblage optimisé d’actions de prévention. L’étude a permis de démontrer que :
Les premières données exploitées pour mettre en œuvre cette méthodologie concernent 80 000 personnes assurées en santé individuelle complémentaire sur une année d’observation. La base de données de prestations santé comporte 80 libellés d’actes.
Cette base de données a été scindée selon le sexe et le statut actifs ou retraités de l’assuré. Les analyses et interprétations sont bien sûr différentes selon ces 4 sous-groupes.
Nous souhaitions poser un regard sans a priori sur les analyses et résultats ; nous avons donc retenu une approche non supervisée.
En vue de proposer des actions de prévention ciblées, nous poursuivions deux objectifs :
2) Modélisation
La base de données regroupant l’ensemble des prestations des assurés est convertie en une base « fréquence ». On ne s’intéresse donc ni aux dépenses, ni aux remboursements complémentaires, mais uniquement aux parcours de consommation.
Les données relatives aux prestations, ligne par ligne, versées à un assuré, sont transformées en une base de données reflétant « combien de fois cet assuré est allé consulter un médecin, un dentiste, un opticien (…) sur une période donnée ».
Au final, on obtient une matrice de fréquences contenant 80 colonnes (les différents actes). Cette donnée d’entrée s’apparente à ce que l’on peut retrouver dans les modèles en text mining.
On décompose ensuite cette matrice de fréquences en deux sous matrices, à l’aide d’un algorithme de machine learning, et l’on obtient :
Cette décomposition matricielle permet de réduire la dimension des données et d’obtenir des parcours de consommation interprétables.
Ainsi, sur le segment des femmes retraitées par exemple (20 000 assurées), la matrice ainsi créée synthétise les 80 actes santé initiaux en 20 groupes d’actes correspondant à 20 parcours de consommation distincts.