Quel Type d’intelligence artificielle pour traiter la fraude à l'assurance

Vous avez un Projet ?

Présenté par Alaeddine AZIZ

L’année 2014 s’est traduite par plus de 8 millions de sinistres  AUTO indemnisés parmi lesquels environ 27 000 cas frauduleux  identifiés, soit  une fréquence de 0,3  %. Ce taux apparait  néanmoins fortement sous-estimé puisqu’il ne concerne que  les fraudes détectées par les assureurs. La proportion réelle de  fraudes peut être estimée à quelques pourcents en assurance  AUTO.

Outre cette faible fréquence, les cas frauduleux présentent  souvent des caractéristiques relativement similaires aux  cas  non-frauduleux. Il n’existe pas de variable ou de règle particulière  permettant de caractériser les cas de fraude de manière simple  et robuste.

D’un point de vue schématique, détecter la fraude consiste à  chercher une épingle jaune dans une botte de paille. D’un point  de vue technique, cela revient à traquer les signaux faibles  caractérisant la fraude.

Dans cette lutte, les gestionnaires de sinistres se retrouvent en  première ligne. Ces derniers peuvent en effet signaler les cas  suspicieux afin d’engager des investigations. Cette identification  est réalisée sur la base de l’expérience acquise dans l’analyse des  éléments du sinistre, mais également sur le ressenti de l’échange  avec l’assuré. Cet aspect humain constitue une spécificité des  gestionnaires qui ne peut être reproduit dans les modèles de  détection de fraude.

Néanmoins, un assureur couvrant 100 000 contrats doit traiter en  moyenne 20 000 dossiers par an avec une équipe d’une dizaine  de gestionnaires. Ces derniers ne peuvent réaliser une analyse  approfondie de chaque sinistre sans risquer de compromettre  la fluidité de l’ensemble de la gestion. Par ailleurs, la fraude  constitue un phénomène trop complexe pour être complètement  appréhendé par un gestionnaire, aussi expérimenté et  psychologue soit-il.

Le recours à des modèles automatiques de détection constitue  dès lors une nécessité opérationnelle pour lutter de manière  efficace contre la fraude. Ces modèles s’articulent autour de 3  approches distinctes :

 

  • approche par règle décisionnelle ;
  • approche supervisée ;
  • approche non-supervisée.

APPROCHE PAR RÈGLE DÉCISIONNELLE

Cette approche consiste à définir un corpus de règles binaires  caractérisant chacune une situation suspecte. Un sinistre  vérifiant une de ces règles est considéré comme potentiellement  frauduleux et devra en conséquence faire l’objet d’une vérification  voire d’une investigation approfondie.

Les règles retenues correspondent généralement à une  formalisation d’un certain « bon sens » et de l’expérience des  gestionnaires en matière de fraude. Certaines règles quantitatives  peuvent être calibrées sur  la base d’analyses statistiques  (ex : seuil fréquence ou coût atypiques). Néanmoins, cet aspect  quantitatif reste limité à une simple analyse statistique univariée.

Les types de fraude étant intrinsèquement liés à la garantie  considérée, les règles de décision sont généralement définies au  niveau de chaque garantie. Les modèles de place retiennent entre  10 à 20 règles par garantie ce qui aboutit in fine à un corpus d’une  centaine de règles.

 

L’avantage principal de ce type de modèle réside dans sa  simplicité opérationnelle. En effet, la mise en œuvre d’une telle  approche ne requiert ni base de données spécifique, ni travaux  de modélisation complexe. La notion de règle binaire présente  par ailleurs un caractère intelligible pour l’ensemble des acteurs  impliqués qui peuvent ainsi participer à la construction du  modèle, le mettre en œuvre et le faire évoluer.

Des règles de décision binaires apparaissent néanmoins trop  rudimentaires pour capter la complexité du phénomène de  fraude. Cette insuffisance peut conduire à un modèle avec une  très faible spécificité qui produira de nombreux faux positifs. Une  proportion élevée de cas identifiés comme suspects, bien qu’en  réalité non frauduleux, peut rendre les résultats peu exploitables  avec un périmètre de sinistres à investiguer trop étendu. Les  coûts d’investigation risquent alors de se révéler globalement  supérieurs au montant de fraude à recouvrer. Une sélection de  règles suffisamment restrictives permet cependant de minorer  ce risque.

Cette approche présente sans doute le meilleur compromis entre  performance et coût opérationnel. Son  caractère sommaire  limite forcément ses performances de détection face aux cas  complexes de fraude. Néanmoins, ce type de modèle permet de  définir un premier périmètre d’investigation ciblé sur les cas les  plus à risque. In fine, bien qu’elle ne se suffise pas à elle-même,  cette approche par règles de décision constitue une première  étape indispensable pour tout assureur souhaitant mettre en  place un système de détection automatique de la fraude. Ce  type de modèle est d’ailleurs implémenté chez une majorité des  acteurs du marché.

APPROCHE SUPERVISÉE

Cette approche vise à construire un modèle d’apprentissage  statistique permettant de prédire l’appartenance des sinistres  déclarés à une des 2 classes suivantes :

 

Classification model

Ce modèle de classification permet d’estimer la probabilité d’appartenance à la classe « sinistre frauduleux », notée Yˆ, du i sinistre i par rapport à un ensemble de variables explicatives X j :

 

Probability of belonging to the "fraudulent claim" class

Le modèle est calibré à partir d’une base fraude qui contient pour  chaque sinistre du périmètre historique retenu :

 

  • les variables explicatives ;
  • la classe à laquelle il appartient.

La complexité du phénomène de fraude impose de considérer  de nombreuses variables explicatives issues de différentes  sources (base sinistre, base assuré,  base  commerciale,…).  La création de cette base constitue la principale contrainte  opérationnelle de l’approche. En effet, l’identification de la  classe d’appartenance des sinistres requiert de disposer d’un  historique des fraudes détectées. L’approche supervisée ne  peut donc être envisagée qu’à partir d’un dispositif de lutte  contre la fraude préexistant.

L’approche supervisée vise à résoudre une problématique de  classification. La démarche à mettre en œuvre reprend donc  celle appliquée par les services de tarification dans le cadre des  modèles de transformation, de rétention ou de propension :

 

  • traitement et analyse des données ;
  • sélection du modèle ;
  • estimation des paramètres ;
  • sélection des variables significatives.

Focus sur les algorithmes supervisés

La  modélisation de  la  fraude  présente  néanmoins  2 spécificités majeures qui impactent sensiblement la démarche opérationnelle :

 

  • Classes déséquilibrées :

    La classe « sinistre frauduleux »  représente généralement moins de 0,5 % des sinistres de la  base fraude. Les modèles de prédiction voient leur performance  fortement dégradée lorsque la classe cible apparait si faiblement  représentée. Cette problématique peut néanmoins être atténuée  en appliquant des stratégies de sous/sur-échantillonnage et de  création d’observations synthétiques via des algorithmes de  type SMOTE9. Ces techniques permettent de rééquilibrer les  classes afin d’aider le modèle à mieux identifier les patterns les  caractérisant.

  • Variables explicatives nombreuses et variées :

    L’apprentissage  des modèles de fraude est réalisé sur une base regroupant  souvent plus de 50 variables issues de différentes sources.  L’expression de ces variables dans le score de fraude présente  une forte complexité avec de multiples effets non linéaires  et interactions. Les approches classiques de type GLM  apparaissent peu adaptées au regard de l’important paramétrage  manuel nécessaire pour prendre en compte cette complexité.  Les algorithmes de type Machine Learning présentent dans  ce contexte une réelle pertinence en raison de leur capacité à  appréhender des données complexes, variées et volumineuses  de manière automatique.

L’approche supervisée permet in fine de construire un modèle  de détection automatique des fraudes prenant en compte la  complexité du phénomène d’une part, et reposant sur des  bases objectives d’autre part. Le recours à des algorithmes de  type machine learning permet en effet de capter la complexité  des données selon une approche « data driven ». Le caractère « boite noire » de ces modèles constitue souvent une cause de  disqualification dès lors qu’une certaine traçabilité est requise.  Cependant, dans un contexte de détection de fraude, le besoin de  traçabilité apparait moins prégnant ce qui permet d’envisager ce  type d’algorithme.

APPROCHE NON SUPERVISÉE

Cette approche vise à développer un modèle d’apprentissage  statistique permettant de regrouper les données en différentes  classes homogènes non connues a priori. Le modèle va analyser la  structure des données et classer les observations selon leur degré  de similitude. L’objectif ne consiste plus à déterminer des règles  permettant de prédire l’appartenance à une classe cible, mais à  identifier des règles de regroupement au sein de différentes classes  définies par le modèle lui-même. D’un point de vue schématique,  l’approche non supervisée revient à laisser le modèle analyser les  données sans lui préciser ce qu’il doit trouver.

Cette approche permet notamment d’identifier les observations  présentant une structure atypique au sein d’une base de  données. En formulant l’hypothèse qu’un sinistre affichant des  caractéristiques atypiques dissimule potentiellement une fraude,  cette approche peut être appliquée dans un contexte de détection  automatique des cas frauduleux.

Le modèle réalise son apprentissage sur une base de données  similaire à celle de l’approche supervisée mais limitée aux seules  variables explicatives. L’absence de variable cible présente 2  avantages majeurs :

 

  • l’identification préalable des sinistres frauduleux n’est plus  nécessaire. Un modèle non-supervisé peut donc être développé et  mis en œuvre immédiatement sans prérequis.
  • les résultats ne sont plus conditionnés par l’identification des  sinistres frauduleux. L’approche permet donc de détecter des  types de fraude jamais observés jusqu’alors.

Les  modèles non supervisés reposent tous sur le  même  principe

: une mesure de la singularité de chaque observation. Cette  mesure peut correspondre à une distance ou une densité, estimée  de manière locale ou globale, selon le modèle considéré. Les  algorithmes non-supervisés se répartissent en 3 grandes familles :

 

  • méthodes de distance globale ;
  • méthodes de distance locale ;
  • méthodes de densité ;

L’absence de variable cible implique qu’il n’existe pas de phase de  paramétrage, de sélection de variable ou de validation du modèle.  Cette spécificité présente l’avantage de la simplicité opérationnelle.  Néanmoins, l’absence de feedback sur la qualité des résultats peut  parfois se révéler déroutante. L’utilisateur en est réduit à accorder  une confiance aveugle à son modèle.

Cet inconvénient peut être atténué selon 2 méthodes :

 

  • Valider les résultats sur une base contenant des sinistres  identifiés comme frauduleux :

    L’objectif consiste alors à vérifier  qu’une part de ces sinistres ressort bien comme atypique. Cette  analyse peut également servir à ajuster le modèle. Ces ajustements  doivent néanmoins rester limités sous peine de tomber dans une  approche supervisée.

  • Implémenter chaque famille d’algorithmes pour travailler sur  un méta score :

    Cette solution permet de traiter la problématique  du choix du modèle. En outre, cette orientation présente une réelle  pertinence puisque chaque type de modèle performe de manière  différente selon la structure des données considérées.

L’approche non supervisée apparait encore peu considérée par les  assureurs dans le cadre de la détection de fraude. Cette dernière  présente pourtant des avantages certains, à commencer par son  absence de prérequis permettant une mise en œuvre immédiate,  ainsi que sa capacité à identifier des types de fraudes encore jamais  détectées. Néanmoins, l’hypothèse sous-jacente à l’approche, qui  lie les caractères frauduleux et atypique, peut s’avérer inexacte.  L’impossibilité de paramétrer et de valider le modèle ne permet  pas de confirmer cette hypothèse pourtant fondamentale. Le  risque consiste dès lors à engager des investigations couteuses  sur les cas considérés comme atypiques par le modèle bien qu’en  réalité non frauduleux. Cette faille pousse à considérer l’approche  non supervisée comme un simple complément de l’approche  supervisée

Focus sur les algorithmes non-supervisés

 

 

 

Vous avez un Projet ?

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.