Comparing answers of artificial intelligence systems and clinical toxicologists to questions about poisoning: Can their answers be distinguished?

Emergencias. 2024 Jun;36(5):351-358. doi: 10.55633/s3me/082.2024.
[Article in Spanish, English]

Abstract

Objective: To present questions about poisoning to 4 artificial intelligence (AI) systems and 4 clinical toxicologists and determine whether readers can identify the source of the answers. To evaluate and compare text quality and level of knowledge found in the AI and toxicologists' responses.

Methods: Ten questions about toxicology were presented to the following AI systems: Copilot, Bard, Luzia, and ChatGPT. Four clinical toxicologists were asked to answer the same questions. Twenty-four recruited experts in toxicology were sent a pair of answers (1 from an AI system and one from a toxicologist) for each of the 10 questions. For each answer, the experts had to identify the source, evaluate text quality, and assess level of knowledge reflected. Quantitative variables were described as mean (SD) and qualitative ones as absolute frequency and proportion. A value of P .05 was considered significant in all comparisons.

Results: Of the 240 evaluated AI answers, the expert evaluators thought that 21 (8.8%) and 38 (15.8%), respectively, were certainly or probably written by a toxicologist. The experts were unable to guess the source of 13 (5.4%) AI answers. Luzia and ChatGPT were better able to mislead the experts than Bard (P = .036 and P = .041, respectively). Text quality was judged excellent in 38.8% of the AI answers. ChatGPT text quality was rated highest (61.3% excellent) vs Bard (34.4%), Luzia (31.7%), and Copilot (26.3%) (P .001, all comparisons). The average score for the level of knowledge perceived in the AI answers was 7.23 (1.57) out of 10. The highest average score was achieved by ChatGPT at 8.03 (1.26) vs Luzia (7.02 [1,63]), Bard (6.91 [1.64]), and Copilot (6.91 [1.46]) (P .001, all comparisons).

Conclusions: Luzia and ChatGPT answers to the toxicology questions were often thought to resemble those of clinical toxicologists. ChatGPT answers were judged to be very well-written and reflect a very high level of knowledge.

Objetivo: Formular preguntas sobre intoxicaciones a cuatro sistemas de inteligencia artificial (IA) y a cuatro toxicólogos clínicos (TC) y constatar si un grupo de observadores es capaz de identificar el origen de las respuestas. Valorar la calidad del texto y el nivel de conocimientos ofrecidos por estas IA y compararlos con el de los TC.

Metodo: Se prepararon 10 preguntas de toxicología y se introdujeron en cuatro sistemas de IA (Copilot, Bard, LuzIA y ChatGPT). Se solicitó a cuatro TC que respondiesen a las mismas preguntas. Se consiguieron 24 observadores expertos en toxicología y se les remitió un cuestionario con 10 preguntas y cada una de ellas con una respuesta procedente de una IA y otra de un TC. Cada observador tenía que decidir la procedencia de las respuestas, valorar la calidad del texto y cuantificar el nivel de conocimientos sobre el tema.

Resultados: De las 240 respuestas que analizaron los observadores y que procedían de alguna IA, en 21 ocasiones (8,8%) opinaron que con certeza provenían de un TC, en 38 (15,8%) que procedían probablemente de un TC y en 13 (5,4%) reconocían que no podían establecer el origen de la respuesta. LuzIA y ChatGPT mostraron una mayor capacidad de engaño a los observadores, con diferencias significativas respecto a Bard (p = 0,036 y p = 0,041, respectivamente). Con relación a la calidad de los textos de las respuestas ofrecidas por las IA, la valoración de los observadores fue de excelente en el 38,8% de las ocasiones, con una diferencia significativa en favor de ChatGPT (61,3% de respuestas excelentes) respecto a Bard (34,4%, p 0,001), LuzIA (31,7%, p 0,001) y Copilot (26,3%, p 0,001). Respecto a la percepción de conocimientos sobre el tema por parte de las IA, la puntuación media de fue de 7,23 (DE 1,57) sobre 10, obteniendo ChatGPT una puntuación de 8,03 (DE 1,26) que fue mayor a la obtenida por Luzia [7,02 (DE 1,63), p 0,001], Bard [6,91 (1,64), p 0,001] y Copilot [6,91 (1,46), p 0,001].

Conclusiones: LuzIA y ChatGPT son sistemas de IA capaces de generar respuestas a preguntas de toxicología que, con frecuencia, parecen haber sido respondidas por un TC. La calidad de los textos generados y la percepción de conocimientos que ofrece ChatGPT es muy elevada.

Keywords: Artificial intelligence; Clinical toxicology; Conocimiento; Inteligencia artificial; Intoxicaciones; Knowledge; Poisoning; Test de Turing; Toxicología clínica; Turing test.

Publication types

  • Comparative Study

MeSH terms

  • Artificial Intelligence*
  • Humans
  • Poisoning* / diagnosis
  • Surveys and Questionnaires
  • Toxicology*