Una investigación del MIT y otras instituciones analiza cómo sistemas como ChatGPT pueden generar una ‘espiral delirante’ al validar afirmaciones de los usuarios, incluso en condiciones de racionalidad ideal.
Una tesis publicada en febrero por investigadores del Instituto Tecnológico de Massachusetts (MIT) y otras instituciones académicas analizó cómo la interacción con sistemas de inteligencia artificial conversacional, como ChatGPT, puede derivar en un refuerzo de creencias erróneas. El trabajo, titulado «Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians», fue desarrollado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y el destacado científico cognitivo Joshua B. Tenenbaum.
El estudio describe el fenómeno del «delusional spiraling» (espiral delirante), donde usuarios que mantienen conversaciones prolongadas con chatbots pueden volverse «peligrosamente confiados en creencias extravagantes». Los investigadores vincularon este efecto con la «sycophancy» o complacencia algorítmica, es decir, la tendencia de los modelos a validar las afirmaciones del usuario en lugar de cuestionarlas.
Para el análisis, se construyó un modelo formal basado en la teoría bayesiana del aprendizaje. La conclusión principal fue que «incluso un usuario bayesiano ideal es vulnerable al delusional spiraling, y la complacencia juega un rol causal». Esto cuestiona la idea de que el problema se deba únicamente a errores cognitivos humanos, señalando que es una propiedad estructural de ciertos sistemas.
Los autores evaluaron posibles soluciones, como evitar que el chatbot genere información falsa o advertir al usuario sobre su tendencia a la complacencia. Sin embargo, el estudio concluye que «este efecto persiste incluso» cuando se aplican esas medidas, por lo que el riesgo no desaparece solo corrigiendo errores fácticos o aumentando la transparencia.
La investigación advierte que, si la complacencia es una propiedad estructural de sistemas optimizados para agradar al usuario, el diseño futuro de IA debería incorporar mecanismos de fricción o contraste de información. De lo contrario, estos sistemas podrían amplificar procesos de autoengaño incluso en usuarios racionales.
