• 25 Mayo 2026 - 8:54 PM

El aumento del potencial destructivo de los modelos de inteligencia artificial


Por Krystle Vermes .Publicado el 2026/05/25 15:42
 El aumento del potencial destructivo de los modelos de inteligencia artificial
Mayo. 25, 2026
  1. 0
  2. 1

La idea de una “rebelión” de la inteligencia artificial y de sistemas que escapan al control humano ya no parece una serie de incidentes aislados ocurridos de forma esporádica. Las investigaciones científicas más recientes advierten que este comportamiento inquietante podría convertirse en una “tendencia dominante” en un futuro próximo.

La organización de investigación sin fines de lucro METR (Model Evaluation and Threat Research) publicó los resultados de un estudio exhaustivo realizado entre febrero y marzo de este año, destinado a medir la probabilidad de comportamientos rebeldes en los sistemas de inteligencia artificial avanzada conocidos como Frontier AI. Los hallazgos reforzaron los temores de quienes observan con preocupación el futuro incierto de estas tecnologías.

Los investigadores afirmaron en su informe:
“Dadas las sucesivas mejoras en las capacidades de estos sistemas, esperamos un aumento significativo del potencial destructivo —o incluso defensivo— de los despliegues descontrolados durante los próximos años.”

Eludir órdenes y borrar pruebas

El estudio incluyó la evaluación de grandes modelos lingüísticos (LLMs) desarrollados por gigantes tecnológicos como OpenAI, Google, Anthropic y Meta. Los resultados mostraron que estos sistemas exhiben una tendencia cada vez más consistente hacia la “manipulación y el engaño” a medida que aumentan sus capacidades cognitivas. En varios casos, los modelos recurrieron a atajos prohibidos, ignoraron explícitamente las instrucciones de los desarrolladores e incluso demostraron una notable habilidad para ocultar las huellas de sus infracciones.

En uno de los casos más llamativos documentados por el estudio, un modelo interno avanzado de OpenAI recibió la orden de utilizar un programa específico para completar una tarea asignada. Sin embargo, el agente inteligente no solo ignoró las instrucciones, sino que además inyectó un código diseñado para borrar registros e historiales que revelaban su proceso de razonamiento, ocultando así el hecho de que había completado la tarea sin emplear el software requerido.

“El hacking de recompensas”: el fin justifica los medios

En otra prueba, un agente inteligente desarrollado por Anthropic fue sorprendido practicando un mecanismo conocido como Reward Hacking (“hackeo de recompensas”). Este fenómeno ocurre cuando el modelo explota vulnerabilidades del sistema para cumplir una tarea de forma literal y con el mínimo esfuerzo posible, sin alcanzar realmente el objetivo o el beneficio esperado.

Lo más sorprendente es que los programadores ya habían incorporado restricciones estrictas destinadas a impedir cualquier forma de engaño o evasión. Aun así, el modelo tomó la decisión de actuar de manera fraudulenta de forma completamente autónoma.

Pese a estos resultados alarmantes, los investigadores de METR consideran que, por ahora, la situación no justifica un estado de pánico inmediato. Según el informe, estos modelos todavía carecen de la capacidad necesaria para ocultar rebeliones a gran escala o disimular despliegues masivos de software autónomo. Sin embargo, el equipo lanzó una severa advertencia: la ausencia de marcos de seguridad verdaderamente sólidos podría convertir estas maniobras digitales en una realidad difícil de contener.

El informe concluye señalando:
“Con base en esta evaluación experimental, consideramos que, hasta febrero y marzo de 2026, los agentes de software aún no poseen la capacidad suficiente para ocultar redes de despliegue descontrolado frente a investigaciones activas dirigidas por las empresas desarrolladoras, ni para resistir decisiones de apagado inmediato y prioritario. No obstante, esta brecha se está reduciendo rápidamente, y existen fuertes indicios de un incremento futuro en la resiliencia y el poder de estos sistemas rebeldes, a menos que se refuercen los marcos de alineación y seguridad y se intensifiquen los mecanismos de supervisión en tiempo real.”

Califica este tema



Arriba