Une étude récente a évalué et comparé les performances de ChatGPT-3.5, ChatGPT-4 Omni (4o), Google Bard et Microsoft Copilot dans la réponse à des questions à choix multiples en radiologie buccale. Cette analyse s’est basée sur les questions de l’examen d’admission en spécialité dentaire (DUS) en Turquie.
Méthodologie de l’étude
L’étude a utilisé 123 questions issues de la banque de données du DUS couvrant les années 2012 à 2021. Chaque question comportait cinq options avec une seule réponse correcte. Les performances des chatbots ont été comparées selon les critères suivants :
- Précision des réponses (nombre de réponses correctes / total des questions posées)
- Temps de réponse
- Nombre de mots dans les réponses
Les analyses statistiques ont été menées à l’aide du test de Kruskal-Wallis, du test post hoc de Dunn et du test Q de Cochran pour évaluer les différences significatives entre les performances des modèles.
Résultats principaux
Les résultats ont montré des écarts significatifs entre les modèles évalués :
- ChatGPT-4o a démontré la meilleure précision globale avec 86,1 % de réponses correctes, mettant en avant son raisonnement avancé.
- Google Bard a obtenu 61,8 %, offrant des réponses plus détaillées mais avec un taux d’exactitude inférieur.
- ChatGPT-3.5 a atteint 43,9 %, avec un temps de réponse plus rapide mais une précision réduite.
- Microsoft Copilot a présenté la performance la plus basse avec 41,5 %.
Implications et perspectives
L’étude met en lumière le rôle croissant des modèles de langage dans l’éducation médicale, en particulier en radiologie dentaire, où la précision et la rapidité d’analyse sont essentielles. ChatGPT-4o, avec ses capacités de traitement améliorées, semble être un outil prometteur pour l’accompagnement des étudiants et professionnels de santé.
Toutefois, les chercheurs soulignent que, malgré les avancées, ces outils ne remplacent pas l’expertise humaine et doivent être utilisés avec prudence. Des études futures pourraient explorer leur utilisation pour l’analyse d’images radiologiques et l’élargissement des bases de données utilisées pour l’entraînement des modèles.
Conclusion
L’évaluation des modèles d’IA dans un cadre académique et médical montre un potentiel significatif pour l’éducation et la formation en radiologie buccale. ChatGPT-4o se démarque par sa précision accrue, tandis que Google Bard fournit des réponses détaillées mais moins exactes. À mesure que ces technologies évoluent, leur intégration dans l’enseignement et la pratique clinique devra être accompagnée de protocoles rigoureux garantissant leur fiabilité et leur pertinence.
Source : ChatGPT-4 Omni’s superiority in answering multiple-choice oral radiology questions









