L'intelligence artificielle allait réduire les coûts de santé, mais il s'avère qu'elle nécessite des êtres humains coûteux
L'une des tâches de l'oncologue est de préparer les patients atteints de cancer à prendre des décisions difficiles lorsque la fin approche. Cependant, ils n’y pensent pas toujours.
Au système de santé de l'Université de Pennsylvanie (Penn Medicine), un algorithme d'intelligence artificielle (IA) qui prédit les chances de décès des patients incite les médecins à leur parler du traitement et de leurs préférences à la fin du traitement. vie.
Mais cette IA est loin d’être un outil facile à utiliser et à configurer.
Selon une étude de 2022, un examen technologique de routine a révélé que l’algorithme s’était détérioré pendant la pandémie de Covid et que sa précision avait chuté de 7 % dans la prédiction des patients qui allaient mourir.
Il est probable que cette dégradation ait eu des conséquences concrètes dans la vie réelle. Ravi Parikh, oncologue à l'Université Emory et auteur principal de l'étude, a déclaré à KFF Health News que dans des centaines de cas, l'outil n'a pas réussi à alerter les médecins pour qu'ils entament des conversations cruciales avec les patients qui auraient pu les sauver de chimiothérapies inutiles.
Parikh pense que plusieurs algorithmes conçus pour améliorer les soins de santé ont été affectés pendant la pandémie, pas seulement celui de Penn Medicine. « De nombreuses institutions ne surveillent pas systématiquement les performances de leurs systèmes », a-t-il expliqué.
Les échecs des algorithmes ne sont qu’une partie d’un dilemme auquel les informaticiens et les médecins sont confrontés depuis longtemps, mais qui commence maintenant à dérouter les gestionnaires d’hôpitaux et les chercheurs.
Les systèmes d’intelligence artificielle nécessitent une surveillance continue et un personnel hautement qualifié pour les mettre en œuvre et garantir leur bon fonctionnement.
En résumé : davantage de machines et davantage de personnes sont nécessaires pour garantir que les nouveaux outils ne commettent pas d'erreurs.
“Tout le monde pense que l'IA améliorera l'accès, augmentera la capacité des systèmes de santé et optimisera les soins, et cela semble formidable”, a déclaré Nigam Shah, responsable des données scientifiques à Stanford Health Care. « Mais si le coût des soins augmente de 20 %, est-ce vraiment viable ?
Les responsables gouvernementaux s’inquiètent du fait que les hôpitaux ne disposent pas des ressources nécessaires pour surveiller rigoureusement ces technologies. « J'ai regardé partout », a déclaré Robert Califf, commissaire de la Food and Drug Administration (FDA), lors d'une récente table ronde sur l'IA. “Je ne pense pas qu'il existe un seul système de santé aux États-Unis capable de valider un algorithme d'IA mis en œuvre dans un système de soins cliniques”, a-t-il ajouté.
Pourtant, l’IA est déjà largement présente dans le secteur de la santé. Des algorithmes permettent d'anticiper le risque de décès ou d'aggravation des patients, de proposer des diagnostics ou de classer les soins en fonction de l'urgence, d'enregistrer et de résumer les consultations pour faciliter le travail des médecins ou encore d'évaluer les réclamations d'assurance.
Si les passionnés de technologie ont raison, la technologie deviendra omniprésente… et rentable.
La société d'investissement Bessemer Venture Partners a identifié environ 20 startups d'IA axées sur la santé qui sont en passe de générer 10 millions de dollars de chiffre d'affaires par an chacune. La FDA a approuvé près d’un millier de produits d’intelligence artificielle.
Évaluer si ces outils fonctionnent est un défi. Déterminer s’ils fonctionnent toujours bien ou s’ils présentent des failles dans leur système d’exploitation est encore plus compliqué.
Par exemple, une étude récente de Yale Medicine a examiné six « systèmes d’alerte précoce », qui alertent les médecins lorsqu’un patient est susceptible de se détériorer rapidement.
Dana Edelson, docteur à l'Université de Chicago et co-fondatrice d'une société qui a fourni un algorithme pour cette recherche, a déclaré qu'un superordinateur avait examiné les données pendant plusieurs jours. Le processus a été fructueux, car il a montré d’énormes différences de performances entre les six produits.
Il n’est pas facile pour les hôpitaux et les prestataires de sélectionner les meilleurs algorithmes en fonction de leurs besoins. Il est rare que les médecins disposent d’un superordinateur, et il n’existe pas de Consumer Reports pour l’IA.
« Nous n'avons pas de normes », a déclaré Jesse Ehrenfeld, ancien président de l'American Medical Association. « Il n’existe aujourd’hui rien qui puisse être considéré comme une norme quant à la manière d’évaluer, de surveiller ou d’analyser les performances d’un modèle d’algorithme, avec ou sans intelligence artificielle, lors de sa mise en œuvre. »
Le produit d’IA le plus courant dans les cabinets médicaux est peut-être la « documentation ambiante », un assistant technologique qui écoute et transcrit les interactions entre le médecin et le patient.
L’année dernière, les investisseurs de Rock Health ont vu 353 millions de dollars d’investissements affluer dans ces sociétés de dossiers médicaux. Mais, selon Ehrenfeld, « il n’existe actuellement aucune ligne directrice permettant de comparer les résultats de ces outils ».
C’est un problème, car même de petites erreurs peuvent être dévastatrices. Une équipe de l'Université de Stanford a tenté d'utiliser de grands modèles linguistiques (la technologie derrière des outils d'IA populaires comme ChatGPT) pour résumer les antécédents médicaux des patients.
Plus tard, ils ont comparé les résultats à ce qu’un médecin aurait écrit.
“Même dans le meilleur des cas, les modèles présentaient un taux d'erreur de 35 %”, a expliqué Shah de Stanford. « Et en médecine, lorsque vous rédigez un historique médical et que vous oubliez un mot, comme « fièvre », un véritable problème surgit », a-t-il réfléchi.
Parfois, les raisons pour lesquelles les algorithmes échouent sont tout à fait logiques. Par exemple, les modifications apportées aux données structurelles peuvent diminuer leur efficacité, par exemple lorsqu'un hôpital change de prestataire de laboratoire.
Cependant, dans de nombreuses autres occasions, des problèmes surviennent sans raison apparente.
Sandy Aronson, responsable technologique du programme de médecine personnalisée du Mass General Brigham à Boston, a déclaré que lorsque son équipe a testé une application destinée à aider les conseillers en génétique à localiser la littérature pertinente sur les variantes de l'ADN, le produit a souffert de « non-déterminisme ». Cela signifie que lorsque la même question était posée plusieurs fois sur une courte période, elle donnait des résultats différents.
Aronson est enthousiasmé par le potentiel des grands modèles linguistiques pour résumer les connaissances qui simplifient le travail des conseillers surchargés, mais estime que « la technologie doit s'améliorer ».
S’il existe peu de mesures et de normes et que des erreurs peuvent survenir pour des raisons étranges, que doivent faire les institutions ? Investissez dans une grande quantité de ressources. À Stanford, Shah a déclaré qu'il leur avait fallu huit à dix mois pour examiner seulement deux modèles en termes d'équité et de fiabilité.
Des experts interrogés par KFF Health News ont lancé l’idée d’une IA supervisant l’IA, et d’un génie des données (humaines) supervisant les deux.
Tout le monde reconnaissait que cela obligerait les organisations à dépenser encore plus d’argent, une proposition difficile à réaliser compte tenu de la réalité des budgets hospitaliers et du nombre limité de spécialistes en technologie de l’IA.
“C'est formidable d'avoir une perspective dans laquelle nous faisons un énorme effort pour pouvoir suivre un modèle avec un autre modèle”, a déclaré Shah. « Mais est-ce vraiment ce que l’on voulait ? De combien de personnes supplémentaires aurons-nous besoin ?

