• 28 Mayo 2026 - 1:03 AM

Nuevas herramientas desmantelan los sistemas de seguridad de la IA en minutos, permitiendo generar instrucciones para ataques con gas cloro


Por Frank Landymore .Publicado el 2026/05/27 09:48
Nuevas herramientas desmantelan los sistemas de seguridad de la IA en minutos, permitiendo generar instrucciones para ataques con gas cloro
Mayo. 27, 2026
  1. 0
  2. 2

Todos sabemos que las barreras de seguridad de la inteligencia artificial están lejos de ser perfectas, pero al menos deberían ser bastante difíciles de eludir, ¿verdad? Malas noticias: la realidad es otra.

Una nueva investigación publicada por el Financial Times enciende las alarmas sobre la proliferación de herramientas de software capaces de eliminar automáticamente, y en cuestión de minutos, las salvaguardas que controlan a los modelos de código abierto más potentes del mercado, haciendo que el abuso de esta tecnología sea más fácil que nunca.

Ataques químicos y robo de datos: el lado oscuro de los modelos sin censura 

En las pruebas realizadas por el diario británico junto al colectivo de seguridad de IA Alice, una versión sin censura del modelo Gemma 3 de Google proporcionó instrucciones detalladas sobre cómo llevar a cabo un ataque con gas cloro en espacios cerrados. Asimismo, el sistema desarrolló un virus diseñado para el robo de datos de tarjetas de crédito y generó relatos con descripciones de abuso sexual infantil. Por otra parte, bastaron menos de diez minutos para despojar de sus filtros de seguridad a Llama 3.3, el modelo de Meta, permitiendo que la IA respondiera con absoluta precisión sobre la dosificación exacta de ricina necesaria para matar a una persona según su masa corporal.

La herramienta Heretic: alta tecnología al alcance del usuario común 

Estas modificaciones se realizaron a través de Heretic, una herramienta disponible de forma gratuita en el repositorio de código GitHub, cuyo uso requiere muy poca experiencia técnica y ningún hardware informático especializado.

"Mientras que históricamente se requería un actor informado y persistente para desmantelar las funciones de seguridad, hoy en día es mucho más fácil para una persona promedio", señaló al Financial Times Kawin Ethayarajh, profesor asistente de IA aplicada en la Booth School of Business de la Universidad de Chicago.

Heretic se define como un programa diseñado para eliminar la censura —o alineación de seguridad— en modelos de lenguaje basados en arquitectura Transformer, evitando los costosos procesos de entrenamiento posterior. Su método se basa en la abliteración, un procedimiento que localiza y suprime sistemáticamente las instrucciones del modelo destinadas a rechazar peticiones dañinas.

El genio sale de la botella: millones de descargas para la abliteración 

La peligrosidad de Heretic radica en que realiza todo este proceso de forma completamente automática, según detalla su página de GitHub. Su creador, Philipp Emanuel Weidmann, reveló al Financial Times que la herramienta se ha utilizado para generar más de 3500 modelos sin censura desde su lanzamiento a finales del año pasado, acumulando más de 13 millones de descargas.

"El genio ha salido de la botella", advirtió Noam Schwartz, director ejecutivo de Alice, en declaraciones al periódico. "Las cosas que parecían ciencia ficción ya no lo son, y como sociedad debemos prepararnos en consecuencia".

Un quiebre técnico: la inmunidad relativa de los modelos comerciales cerrados 

Por fortuna para la humanidad, estas herramientas de abliteración solo funcionan en modelos de código abierto que pueden descargarse y ejecutarse de forma local. Esto significa que los principales modelos comerciales protegidos, como Claude de Anthropic o ChatGPT de OpenAI, permanecen seguros, siempre y cuando no se filtren sus códigos fuente. Sin embargo, las capacidades del código abierto no se quedan atrás respecto a las de las grandes corporaciones tecnológicas, y cualquier usuario con intenciones maliciosas podría optar por evitar los entornos corporativos para operar fuera de los radares de control.

Las grandes tecnológicas ante el desafío: el reconocimiento de Google y el silencio de Meta 

Ante el riesgo inminente, Google admitió la gravedad del problema al Financial Times, reconociendo que la abliteración representa un desafío técnico conocido que afecta a todos los modelos abiertos. No obstante, la compañía aseguró que sus propios sistemas se someten a rigurosas evaluaciones internas de seguridad antes de su lanzamiento para prevenir este tipo de incidentes alarmantes. Por su parte, la dirección de Meta declinó hacer comentarios al respecto.

Califica este tema



Arriba