Sur l’évaluation des projets d’intelligence artificielle

Le terme IA (Intelligence Artificielle) est assez polysémique, mais, pour les organisations qui l’utilisent afin d’améliorer leurs opérations à grande échelle, la technologie applicable demeure principalement le machine learning (ML). Le ML a théoriquement le potentiel d’améliorer toutes sortes de processus métier : il génère des modèles prédictifs, atténue la fraude, permet la gestion des risques financiers, optimise les flux logistiques et bien plus encore. Pour se différencier de l’IA générative, des initiatives comme celles-ci sont parfois appelées IA prédictive ou analyse prédictive.

Le 12 septembre 2024 à 13h59

On pourrait s’attendre à ce que les performances de ce genre de modèles - quelle que soit leur qualité et la valeur qu’ils apportent - soient à l’avant-garde, générant une authentique valeur commerciale.

Toutefois, lorsqu’il s’agit d’évaluer un modèle, la plupart des projets de ML renvoient des métriques médiocres dès lors que l’on fait une distinction entre les indicateurs techniques et commerciaux.

Force des indicateurs commerciaux et financiers

Lors de l’évaluation des modèles de ML, les data scientists se concentrent presque entièrement sur des mesures techniques telles que la précision et le nombre de fois qu’un modèle prédit juste plutôt que devine. Néanmoins, ces mesures sont insuffisantes. Elles nous indiquent les performances relatives d’un modèle prédictif par rapport à une référence telle que l’estimation aléatoire, mais ne fournissent aucune lecture directe de la valeur commerciale absolue d’un modèle ; même la mesure la plus courante qu’est la précision entre dans cette catégorie, ce qui peut être trompeur.

L’accent doit plutôt être mis sur les indicateurs commerciaux tels que le chiffre d’affaires, les bénéfices, les économies générées et le nombre de clients acquis. Ces mesures simples et saillantes évaluent les notions fondamentales de pertinence des modèles. Elles sont directement liées aux objectifs commerciaux et révèlent la véritable valeur des prédictions souvent imparfaites fournies par le ML. Elles sont essentielles pour créer un pont indispensable entre les équipes commerciales et celles en charge de l’analyse des données sachant que les data scientists omettent régulièrement l’usage des indicateurs commerciaux dans les rapports émis et les discussions entreprises, et ce, malgré leur importance. Les mesures techniques dominent la pratique du ML à la fois en termes d’exécution technique et de reporting des résultats aux divers stakeholders. Les métriques techniques sont à peu près le seul type de mesures prises en compte par les data scientists et à l’endroit desquelles la plupart des outils de ML sont programmés.

En ce sens, selon l’enquête Rexer Analytics Data Science de 2023, les data scientists classent les KPI commerciaux tels que le retour sur investissement et les revenus comme les indicateurs les plus importants, mais les métriques techniques restent les plus couramment mesurés bien qu’elles soient fondamentalement inutiles et déconnectées par rapport aux besoins premiers de l’entreprise.

Se concentrer effectivement sur les seules mesures techniques ne mine pas seulement la valeur d’un projet de ML, mais cette habitude enracinée nuit complètement au dessein considéré, et ce, pour deux principales raisons.

Premièrement, lors de l’élaboration du modèle, le data scientist effectue des analyses comparatives sur des métriques qui ne mesurent pas directement les valeurs auxquelles s’attache l’entreprise ; leur modèle ne maximise donc pas ces dimensions fondamentales, de nature commerciale en général.
Deuxièmement, lorsque le data scientist propose de déployer un modèle de ML, les parties prenantes de l’entreprise manquent de visibilité sur la valeur commerciale potentielle que l’archétype pourrait apporter. Ils n’ont aucune indication significative sur la qualité concrète du modèle. Lorsque les chefs d’entreprise demandent des indicateurs d’affaires simples comme le profit ou le retour sur investissement, le data scientist est généralement mal équipé pour renseigner ces métriques. De ce fait, les décideurs sont amenés à faire un choix difficile entre autoriser le déploiement sur un acte de foi ou, dans les faits, annuler le projet, ce qui est généralement le cas. Une étude de l’IBM Institute for Business Value a révélé que le retour sur investissement des initiatives d’IA à l’échelle de l’entreprise n’était en moyenne que de 5,9% à la fin de 2021, ce qui est un extrant se situant en-deçà du coût du capital, signifiant qu’il serait préférable de simplement investir de l’argent dans le marché. Bien identifier les métriques à considérer en incluant des indicateurs commerciaux et financiers est donc essentiel pour surmonter les défis liés au lancement de projets de ML.

Mesures techniques et indicateurs d’affaires

Essayons d’analyser ce qu’il faut entreprendre afin de réduire mathématiquement l’écart entre les performances techniques et celles commerciales en prenant en compte le prix à payer lorsqu’un modèle fournit de mauvaises prédictions. Des frais de mauvaise classification seraient alors facturés selon deux types différents d’erreurs de prédiction :

Faux positif (FP) : il s’agit d’un cas négatif qui a été incorrectement signalé comme positif par le modèle.
Faux négatif (FN) : il s’agit d’un cas positif qui a été incorrectement signalé comme négatif par le modèle.

C’est en effet une chose de savoir qu’un modèle est erroné, disons dans 10% des cas. Cela signifie que c’est correct 90% du temps, soit un taux de précision apparent de 90%. Par contre, il est bien plus utile de décomposer séparément la fréquence d’erreurs pour les cas positifs et celle pour les cas négatifs, ce que l’indicateur courant de la « précision » des modèles de ML ne remplit généralement pas.

Coûts de détection des fraudes

Comment pouvons-nous attribuer un coût commercial aux erreurs de classification de types FP et FN ? Cela dépend de l’importance de chaque type d’erreur. Pour presque tous les projets, une erreur FP n’est pas aussi importante qu’une FN.

Lorsque le modèle utilisé par votre banque par exemple bloque à tort votre transaction légitime par carte de crédit comme si elle était frauduleuse, vous êtes embarrassé. C’est un cas typique de FP. Cela pourrait coûter en moyenne 1.000 DH à la banque, étant donné que vous pourriez vous tourner vers une autre carte de votre portefeuille - non seulement pour l’achat en cours, mais aussi en général.

Par contre, dans le cas d’un FN, lorsque le modèle de la banque autorise à tort un débit frauduleux sur une carte de crédit, cela pourrait coûter à la banque 5 à 10 fois plus en moyenne que s’il s’agissait simplement d’un FP.

Ces coûts de Faux Négatif engendrent des pertes drastiques dues aux fraudes par carte de paiement qui avoisinent, à l’échelle mondiale, les 30 milliards de dollars par an. Le titulaire de la carte peut certes remarquer le faux débit plus tard, mais, si la fraude n’est pas immédiatement détectée par un bon modèle, la perte est sèche et les banques en sont généralement responsables.

En spécifiant les coûts d’une mauvaise classification, une analyse coûts-bénéfices est générée non seulement pour le projet en question dans son ensemble, mais également pour chaque décision individuelle consistant à bloquer ou à autoriser une opération donnée. Ces coûts individuels peuvent alors être sommés afin de calculer un KPI relatif à l’ensemble du projet, dont l’objectif serait de déterminer l’ampleur des économies de coûts engendrées.

Sacrifier un peu de précision demeure logique…

Sans un modèle de détection des fraudes déployé, une banque pourrait perdre des montants importants.

Prenons l’exemple d’un organisme bancaire qui a émis 100.000 cartes de crédit ; chaque carte effectuant en moyenne 100 transactions par an, dont 1 sur 1.000 est frauduleuse.

Transactions annuelles : 10 millions ;
Pourcentage frauduleux : 0,1% ;
Transactions frauduleuses annuelles : 10.000 ;
Coût par transaction frauduleuse : 5.000 DH (coût FN) ;
Perte annuelle due à la fraude : 10.000 × 5.000 = 50 millions DH.

En se basant sur l’exemple ci-dessus, la clé serait de développer un modèle de détection des fraudes qui puisse offrir un compromis avantageux entre les cas FP (moins coûteux) et les FN (plus coûteux) en sacrifiant une certaine précision.

Dans le cas d’un modèle précis à 99,7%, soit un peu moins que la précision technique généralement recherchée de 99,9% d’un modèle "borné" qui suppose que toute transaction est légitime et ne prend donc aucune mesure pour empêcher la fraude, recourir à un modèle moins précis est en réalité préférable.

Pour comprendre la raison, il suffit de revisiter le défaut fatal de l’exactitude qui ne fait pas de distinction entre les différents types d’erreurs, traitant à parts égales les FP et les FN sans tenir compte des différents coûts liés à une classification erronée. De ce fait, pour la plupart des projets de ML, la précision "aveugle" est une fausse piste.

Au-delà de la création d’une valeur commerciale, la détection des fraudes poursuit un objectif sociétal en répondant aux attentes des consommateurs. Même si les individus sont en général frileux à l’idée de voir leur comportement prédit par des modèles, de nombreux consommateurs accueillent favorablement ces techniques, acceptant de devoir faire face à des blocages occasionnels de transactions, lorsqu’il s’agit d’utiliser des cartes de paiement. Une majorité des clients souhaitent ainsi éviter de se voir facturer un achat qu’ils n’ont jamais réellement effectué. Les titulaires de cartes s’attendent donc à ce que les fraudes soient détectées, même s’ils n’en sont peut-être pas complètement conscients.

En conclusion, en se basant sur la valeur commerciale absolue d’un modèle de détection de fraudes plutôt que simplement sur sa performance technique, les parties prenantes du modèle ont quelque chose d’utile et de pragmatique à offrir. Elles peuvent prendre une décision éclairée quant à savoir si, comment et quand autoriser le déploiement d’un modèle de ML.

Il s’ensuit que les data scientists doivent donc incorporer des indicateurs d’affaires dans le cadre de leur pratique habituelle, et ce, même s’il est encore rare actuellement d’être en mesure de combler le fossé existant entre les mesures de nature technique et celles d’essence commerciale.

Dirigeants et data scientists doivent se tenir prêts à discuter ensemble et à repenser la façon avec laquelle ils conçoivent et utilisent les projets de machine learning.

Par Othmane Benmoussa

Le 12 septembre 2024 à 13h59

Othmane Benmoussa

Sur l’évaluation des projets d’intelligence artificielle

à lire aussi

Article : Une délégation du Congrès américain explore les opportunités d'investissement à Dakhla

Article : BlaBlaCar au Maroc : les ambitions de la plateforme pour son premier marché africain

Article : Jeudi 9 juillet : le dirham s'apprécie face au dollar

Article : Mondial 2026 : avant la France, Ouahbi assure que “le seul bonus, c’est gagner la Coupe”

Article : Coupe du monde 2026. La France est prenable, voici pourquoi

Article : Équipementiers : pourquoi le Maroc doit renégocier son contrat avec Puma