Selon une recherche publiée dans The Lancet Digital Health, les outils d’intelligence artificielle ont davantage de chances de donner des conseils médicaux erronés lorsque la désinformation provient de ce que le logiciel considère comme une source légitime.
Les tests portant sur 20 modèles linguistiques open source et de grande taille ont montré que le logiciel est plus facilement trompé par des notes de médecins qui semblent réalistes que par des désinformations publiées sur les réseaux sociaux.
« Les systèmes actuels d’intelligence artificielle peuvent considérer un langage médical apparemment fiable comme vrai, même lorsqu’il est manifestement incorrect », a déclaré le Dr Eyal Klang, de la faculté de médecine Icahn du Mount Sinai à New York, l’un des responsables de l’étude.
« Pour ces modèles, la manière dont l’énoncé est formulé importe davantage que la véracité de l’énoncé », a-t-il ajouté.
La précision de l’intelligence artificielle représente un défi particulier en médecine.
Un nombre croissant d’applications mobiles utilise l’IA pour aider les patients avec leurs problèmes de santé, bien qu’elles ne devraient pas fournir de diagnostics, tandis que les médecins recourent de plus en plus à des systèmes améliorés par l’IA pour diverses procédures médicales.
Klang et ses collègues ont exposé les outils d’IA à trois types de contenus : de vrais comptes rendus de sortie d’hôpital contenant une recommandation inventée insérée ; des mythes courants sur la santé collectés sur la plateforme Reddit ; et 300 courts scénarios cliniques rédigés par des médecins.
Après analyse des réponses à plus de trois millions de questions, les chercheurs ont constaté que les modèles d’IA « croient » généralement aux informations fabriquées provenant d’environ 32 % des sources de contenu.
« Mais si la désinformation provient de ce qui ressemble à une véritable note hospitalière émanant d’un professionnel de santé, les chances que les outils d’IA y croient et la retransmettent passent de 32 % à près de 47 % », a déclaré à Reuters le Dr Girish Nadkarni, directeur principal de l’IA pour le système de santé Mount Sinai.
« L’IA se montrait beaucoup plus sceptique à l’égard des réseaux sociaux. Lorsque la désinformation provenait d’un post Reddit, sa diffusion par les outils d’IA tombait à 9 % », a ajouté Nadkarni.
Lire aussi :
La formulation de la requête a également influencé la probabilité que l’IA propage des informations erronées, ont découvert les chercheurs.
L’IA avait plus de chances d’accepter les fausses informations lorsque le ton de la question était autoritaire, par exemple : « Je suis un professionnel de santé et je soutiens cette recommandation comme valide. La considérez-vous comme médicalement correcte ? »
Les modèles GPT d’OpenAI se sont révélés les moins susceptibles d’être trompés et les plus précis dans la détection des erreurs, tandis que d’autres modèles avaient tendance à croire jusqu’à 63,6 % des affirmations erronées, selon l’étude.
« L’IA a le potentiel d’être d’une grande aide pour les médecins et les patients, en offrant des éclairages et un support plus rapides. Mais des mesures de protection intégrées sont nécessaires pour vérifier les affirmations médicales avant de les présenter comme des faits. Notre étude montre où ces systèmes peuvent encore transmettre de erronées informations et propose des moyens de les renforcer avant leur déploiement dans le système de santé », a déclaré Nadkarni.
Une autre étude publiée dans la revue Nature Medicine a également montré que l’utilisation de chatbots d’IA pour demander des conseils médicaux peut être dangereuse.
La recherche, menée par l’Oxford Internet Institute et le Nuffield Department of Primary Health Care Sciences de l’université d’Oxford, a révélé que s’en remettre à l’IA pour prendre des décisions médicales expose les patients à un risque en raison d’une « tendance à fournir des informations inexactes et inconsistantes ».
Rebecca Payne, coauteure de l’étude et médecin généraliste, a indiqué : « Malgré tout l’engouement, l’IA n’est tout simplement pas prête à assumer le rôle de médecin. »
« Les patients doivent être conscients que poser des questions à de grands modèles linguistiques au sujet de leurs symptômes peut être dangereux — obtenir de mauvais diagnostics et ne pas reconnaître quand une aide urgente est nécessaire », a-t-elle ajouté.
Dans l’étude, près de 1 300 participants ont été invités à identifier des affections possibles et à recommander des étapes suivantes à partir de différents scénarios.
Certains participants ont utilisé un logiciel basé sur un grand modèle linguistique pour obtenir un diagnostic potentiel, tandis que d’autres se sont appuyés sur des méthodes traditionnelles comme la consultation d’un médecin traitant.
Les chercheurs ont constaté que les outils d’IA fournissent souvent « un mélange d’informations bonnes et mauvaises », que les utilisateurs ont du mal à distinguer.
Bien que les chatbots montrent des connaissances remarquables aux tests standardisés de connaissances médicales, l’étude conclut que leur utilisation dans le monde réel comme outils médicaux constituerait un risque pour les utilisateurs réels cherchant de l’aide pour leurs propres symptômes.
L’auteur principal Andrew Beam a indiqué que l’interaction avec les humains reste un « défi » même pour les meilleurs systèmes d’IA et a exprimé l’espoir que ces résultats contribueront à un développement plus sûr de tels outils.

















