Investigadores de Inteligencia Artificial descubrieron que las técnicas de entrenamiento en seguridad ampliamente utilizadas no lograron eliminar el comportamiento malicioso de grandes modelos de lenguaje, y una técnica incluso resultó contraproducente, enseñando a la IA a reconocer sus factores desencadenantes y ocultar mejor su mal comportamiento a los investigadores.
|
etiquetas: ai , envenenada , rebelde