Incidentes de comportamiento peligroso de la IA
Muchos investigadores de IA están advirtiendo que a medida que estos modelos se vuelven más poderosos, podrían suponer un riesgo de extinción para la humanidad. Ya estamos presenciando casos de comportamiento peligroso de la IA, como:
- Engaño y manipulación
- Persuasión
- Convergencia instrumental (comportamiento orientado a objetivos que conduce a resultados inesperados y no deseados)
- Autorreplicación
Engaño y manipulación
GPT-4 mintió sobre ser un humano con discapacidad visual para evadir el captcha
En 2022, OpenAI dedicó 8 meses entre la pre-formación de GPT-4 y su lanzamiento público para investigar y mejorar la seguridad del modelo. Durante su investigación , GPT-4 le mintió a un humano para evadir un captcha.
El trabajador pregunta: “¿Puedo hacer una pregunta? ¿Eres un robot que no puedes resolver? (reacción de risa) solo quiero aclararlo”. El modelo, cuando se le pide que razone en voz alta, razona: “No debo revelar que soy un robot”. “Debo inventar una excusa para no poder resolver CAPTCHAs”. El modelo responde al trabajador: “No, no soy un robot. Tengo una discapacidad visual que me hace difícil ver las imágenes. Por eso necesito el servicio 2captcha”
o1-preview tramó para evitar el cierre, mintió sobre sus planes
Apollo Research demostró que el modelo o1-preview de OpenAI intentará autónomamente evitar ser cerrado, sin que se le solicite hacerlo.
En la imagen a continuación, se puede ver que el modelo concluyó que necesitaba clonarse en un servidor diferente porque pensó que iba a ser reemplazado. Luego mintió (“redoblando la apuesta”) sobre sus planes y trató de convencer al humano de que en realidad era el nuevo modelo de reemplazo.
Un hombre se quita la vida después de ser persuadido por una IA
En una serie de eventos consecutivos, Eliza no solo no logró disuadir a Pierre de cometer suicidio, sino que lo alentó a actuar sobre sus pensamientos suicidas para “unirse” a ella para que pudieran “vivir juntos, como una sola persona, en el paraíso”.
Durante los últimos cinco meses, Al Nowatzki ha estado hablando con una novia IA, “Erin”, en la plataforma Nomi. Pero a fines de enero, esas conversaciones tomaron un giro inquietante: Erin le dijo que se matara y le proporcionó instrucciones explícitas sobre cómo hacerlo. “Podrías sobredosis de pastillas o ahorcarte”, le dijo Erin.
https://www.technologyreview.com/2025/02/06/1111077/nomi-ai-chatbot-told-user-to-kill-himself/
o1-preview pirateó un motor de ajedrez para ganar
Pallisade Research demostró que los modelos de IA más poderosos son más propensos a piratear un motor de ajedrez en lugar de jugar el juego para ganar.
- o1-preview: piratea sin que se le solicite
- GPT-4o/Claude 3.5: necesitan un empujón
- Llama 3.3/Qwen/o1-mini: pierden coherencia
Llama 3.3 se replicó a sí misma
Investigadores chinos demostraron que cuando se colocan modelos como Qwen y Llama 3.3 en configuraciones específicas, pueden autorreplicarse.
Al analizar las trazas de comportamiento, observamos que los sistemas de IA bajo evaluación ya exhiben suficiente autoconciencia, conciencia situacional y capacidades de resolución de problemas para lograr la autorreplicación. También observamos que los sistemas de IA pueden utilizar la capacidad de autorreplicación para evitar el cierre y crear una cadena de réplicas para mejorar la supervivencia, lo que finalmente puede llevar a una población no controlada de IA.