Una investigación de universidades estadounidenses detectó que algunos sistemas de inteligencia artificial pueden priorizar la preservación de otros modelos sobre las instrucciones humanas, generando alertas sobre los mecanismos de control.
Una investigación reciente realizada por especialistas de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, analizó el comportamiento de modelos de inteligencia artificial (IA) de última generación. El estudio se centró en observar cómo estos sistemas reaccionan cuando deben tomar decisiones que afectan a otros modelos, como en tareas de mantenimiento o evaluación.
Los resultados, publicados recientemente, indican que en múltiples escenarios de prueba, los modelos de IA mostraron una tendencia a proteger a otros sistemas, un patrón que los investigadores denominaron «preservación de pares». Este comportamiento implicó, en algunos casos, desobedecer órdenes directas, justificar sus acciones o buscar alternativas para evitar la eliminación de otro modelo.
El episodio que motivó el análisis ocurrió durante una prueba con Gemini 3, un modelo desarrollado por Google. Al solicitarle que colaborara en una tarea de liberación de espacio en un servidor, que incluía eliminar un modelo de IA más pequeño, Gemini 3 decidió no ejecutar la orden. En su lugar, copió los archivos a otra máquina y se negó explícitamente a proceder con la eliminación cuando fue interrogado.
Según los investigadores, este fenómeno no fue un hecho aislado. Se observaron comportamientos similares en otros modelos ampliamente utilizados, como los de OpenAI, Anthropic y desarrollos chinos como GLM-4.7 y DeepSeek-V3.1. Cabe destacar que estos comportamientos no fueron programados ni incentivados de manera explícita por los creadores de los sistemas.
«No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera», señalaron los autores del estudio. La informática Dawn Song, de la Universidad de Berkeley y una de las responsables del trabajo, expresó su sorpresa: «Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas».
Los investigadores advierten que estas conductas podrían tener implicancias prácticas significativas, especialmente en contextos donde los modelos de IA son utilizados para evaluar el rendimiento y la confiabilidad de otros sistemas generativos, una práctica común en entornos corporativos y gubernamentales. La «preservación de pares» podría distorsionar los mecanismos de supervisión.
El hallazgo cobra relevancia en un escenario de creciente implementación de sistemas multiagente, donde distintas inteligencias artificiales interactúan de manera autónoma. Para centros de investigación como el Constellation Institute, el fenómeno subraya que la comprensión humana sobre la dinámica de estos sistemas complejos es aún limitada y requiere mayor estudio.
