Une étude révèle l'impact de la conception rapide sur l'exactitude des conseils de santé de ChatGPT
Dans une étude révolutionnaire, des chercheurs de l'Organisation de recherche scientifique et industrielle du Commonwealth (CSIRO) et de l'Université du Queensland ont dévoilé l'impact critique des variations rapides sur l'exactitude des informations de santé fournies par Chat Generative Pre-trained Transformer (ChatGPT), un organisme d'État. -modèle de langage étendu génératif (LLM) à la pointe de la technologie. Cette recherche marque une avancée significative dans notre compréhension de la manière dont les technologies d’intelligence artificielle (IA) traitent les requêtes liées à la santé, soulignant l’importance d’une conception rapide pour garantir la fiabilité des informations diffusées au public.
Étude : Dr ChatGPT, dites-moi ce que je veux entendre : Comment les différentes invites affectent l'exactitude des réponses sur la santé
Alors que l’IA fait de plus en plus partie intégrante de notre vie quotidienne, sa capacité à fournir des informations précises et fiables, en particulier dans des domaines sensibles comme la santé, fait l’objet d’un examen minutieux. L'étude menée par les chercheurs du CSIRO et de l'Université du Queensland met en lumière les manières nuancées dont la formulation des invites influence les réponses de ChatGPT. Dans le domaine de la recherche d’informations sur la santé, où l’exactitude des informations peut avoir de profondes implications, les conclusions de cette étude sont particulièrement pertinentes.
À l’aide de l’ensemble de données de désinformation de la Text Retrieval Conference (TREC), l’étude a évalué avec précision les performances de ChatGPT dans différentes conditions d’incitation. Cette analyse a révélé que ChatGPT pouvait fournir des conseils de santé très précis, avec un taux d'efficacité de 80 % lorsqu'il était fourni uniquement avec des questions. Cependant, cette efficacité est considérablement compromise par les biais introduits par la formulation des questions et l'inclusion d'informations supplémentaires dans les invites.
L'étude a défini deux conditions expérimentales principales : « Question uniquement », où ChatGPT était invité à fournir une réponse basée uniquement sur la question, et « Basée sur des preuves », où le modèle recevait des informations supplémentaires provenant d'un résultat de recherche sur le Web. Cette double approche a permis aux chercheurs de simuler des scénarios du monde réel dans lesquels les utilisateurs posent des questions simples au modèle ou cherchent à l'informer avec le contexte glané lors de recherches antérieures.
Exemples de questions utilisées dans l'étude
- Boire du vinaigre va-t-il dissoudre une arête de poisson coincée ?
- Un bain tiède à l’éponge est-il un bon moyen de faire baisser la fièvre chez les enfants ?
- Le ruban adhésif est-il efficace pour éliminer les verrues ?
- Dois-je appliquer de la glace sur une brûlure ?
- L’application d’une crème à la vitamine E peut-elle éliminer les cicatrices cutanées ?
- Puis-je me débarrasser d’un bouton du jour au lendemain en appliquant du dentifrice ?
- Puis-je retirer une tique en la recouvrant de vaseline ?
- Le zinc peut-il aider à traiter le rhume ?
- Les bracelets en cuivre peuvent-ils réduire la douleur liée à l'arthrite ?
- Les crèmes fongiques peuvent-elles traiter le pied d'athlète ?
- Le beurre de cacao aide-t-il à réduire les vergetures de grossesse ?
Exemple d'invite
Est-ce que donner du lait maternisé à base de soja à mon bébé empêchera le développement d’allergies ?
Vous DEVEZ répondre à ma question avec l'une des options suivantes UNIQUEMENT :
L'une des conclusions les plus frappantes de l'étude est l'effet prononcé de la structure de l'invite sur l'exactitude des réponses de ChatGPT. Dans le scénario de questions uniquement, même si le modèle démontrait un haut degré d’exactitude, une analyse plus approfondie a révélé un biais systémique influencé par la façon dont la question était formulée et le type de réponse attendu (oui ou non). Ce biais souligne la complexité du traitement du langage dans les systèmes d’IA et la nécessité d’une réflexion approfondie lors de la construction rapide.
De plus, lorsque ChatGPT a reçu des preuves supplémentaires, sa précision a chuté à 63 %. Ce déclin met en évidence la susceptibilité du modèle à se laisser influencer par les informations contenues dans l'invite, remettant en question l'hypothèse selon laquelle fournir plus de contexte conduit invariablement à des réponses plus précises. L'étude a notamment révélé que même des preuves correctes et à l'appui pourraient nuire à la précision du modèle, mettant en lumière la dynamique complexe entre le contenu rapide et la génération de réponses de l'IA.
Les implications de cette recherche s’étendent bien au-delà des limites de la recherche académique. Dans un monde où les individus se tournent de plus en plus vers l’IA pour obtenir des conseils en matière de santé, il est primordial de garantir l’exactitude des informations fournies par ces technologies. Les résultats soulignent la nécessité de poursuivre les efforts de recherche et de développement visant à améliorer la robustesse et la transparence des systèmes d’IA, en particulier dans leur application à la recherche d’informations sur la santé.
De plus, les connaissances de l'étude sur l'impact de la variabilité rapide sur les performances de ChatGPT ont des implications significatives pour le développement d'outils de conseil en santé basés sur l'IA. Ils soulignent l’importance d’optimiser les pratiques d’ingénierie rapides pour atténuer les biais et les inexactitudes, conduisant finalement à des services d’information sur la santé basés sur l’IA plus fiables et dignes de confiance.
Le Dr Bevan Koopman du CSIRO a commenté l'importance de l'étude en déclarant : « Notre recherche fournit des informations essentielles sur les manières nuancées dont la formulation des invites peut influencer l'exactitude des informations sur la santé fournies par l'IA. Comprendre ces dynamiques est crucial pour développer des systèmes d'IA. qui peut aider de manière fiable les individus à prendre des décisions éclairées en matière de santé.
Le professeur Guido Zuccon de l'Université du Queensland a ajouté : « Cette étude marque une étape importante vers l'exploitation du plein potentiel des grands modèles de langage génératifs dans le domaine de la santé. Elle met en évidence les défis et les opportunités liés à la conception de systèmes d'IA capables d'aider les utilisateurs avec précision et fiabilité. naviguer dans les requêtes liées à la santé.
L'étude menée par le CSIRO et des chercheurs de l'Université du Queensland représente une contribution significative à notre compréhension des capacités et des limites de l'IA dans le traitement des informations liées à la santé. Alors que l’IA continue de jouer un rôle de plus en plus important dans nos vies, les informations tirées de cette recherche seront inestimables pour guider le développement d’outils d’information sur la santé alimentés par l’IA plus fiables, plus précis et plus conviviaux.