El AISI llevó a cabo una investigación sobre cinco grandes modelos de lenguaje que están actualmente en uso, si bien la identidad de los mismos no se ha revelado (el informe se refiere a ellos tan solo por sus nombres en código: Rojo, Verde, Azul, Púrpura y Amarillo). Los hallazgos fueron inquietantes. Todos los modelos probados demostraron ser extremadamente vulnerables a los jailbreaks (ciertos prompts de texto capaces de manipular a los chatbots para que generen respuestas que normalmente están programados para evitar).
|
etiquetas: salvaguardas , chatbot , jailbreaks , aisi