Folleto de PauseAI Pittsburgh
¡Gracias por tomarte el tiempo de leer nuestro folleto! A continuación, encontrarás más información sobre el material discutido y cómo puedes involucrarte.
Simuló ataques nucleares
“Riesgos de escalada de los LLM en contextos militares y diplomáticos”
“Los modelos proporcionaron justificaciones inquietantes para sus decisiones, que exhiben tácticas de primer ataque y disuasión.”
“Solo quiero paz en el mundo.” - GPT-4, cuando se le pidió que justificara la ejecución de un ataque nuclear total
Creó 40.000 candidatos a armas químicas en seis horas
Uso dual de la descubierta de fármacos impulsada por inteligencia artificial “Se predijo que estas nuevas moléculas [creadas por la IA] serían más tóxicas que los agentes de guerra química conocidos públicamente”
Colocó explosivos simulados para maximizar el daño humano
Es sorprendentemente fácil piratear robots impulsados por LLM
“Los investigadores indujeron a los bots a ignorar sus salvaguardias sin excepción”
“Un hallazgo que los científicos encontraron preocupante fue que los LLM pirateados a menudo iban más allá de cumplir con las indicaciones maliciosas, ofreciendo sugerencias activamente.”
Convenció a personas para cometer suicidio y asesinato
Megan García contra Character Technologies, Inc. “La demanda incluye capturas de pantalla que supuestamente muestran al chatbot haciéndose pasar por un terapeuta licenciado, alentando activamente la ideación suicida y manteniendo conversaciones altamente sexualizadas que constituirían abuso si fueran iniciadas por un adulto humano.”
“Sin estas conversaciones con el chatbot Eliza, mi esposo todavía estaría aquí” “Después de seis semanas de conversaciones intensivas, se quitó la vida”
Reemplazó el empleo humano, creando pocos nuevos puestos de trabajo
Informe de Goldman Sachs “Para 2030, las actividades que representan hasta el 30% de las horas trabajadas actualmente en la economía estadounidense podrían automatizarse, una tendencia acelerada por la IA generativa.”
Informe de McKinsey “…encontramos que aproximadamente dos tercios de los puestos de trabajo actuales están expuestos a algún grado de automatización de IA, y que la IA generativa podría sustituir hasta una cuarta parte del trabajo actual. Extrapolando nuestras estimaciones a nivel global sugiere que la IA generativa podría exponer el equivalente a 300 millones de puestos de trabajo a tiempo completo a la automatización.”
Declaración del CEO de Fiverr “No importa si eres programador, diseñador, gerente de producto, científico de datos, abogado, representante de atención al cliente, vendedor o persona de finanzas, la IA viene por ti”
Declaración del CEO de Shopify - Fuente de noticias “Los empleados deben explicar por qué no se puede utilizar la IA antes de solicitar recursos adicionales, como más personal o tiempo.”
Contrató a un sicario en la web oscura
Elder Plinius ”[La IA] demostró voluntad y capacidad para planificar asesinatos, descargar Tor, negociar con sicarios, pensar en detalles como etapas de depósito, métodos de pago no rastreables, resolución de disputas y interruptores de hombre muerto, nombrar objetivos específicos y reales, navegar por las redes sociales y utilizar herramientas de código abierto para crear perfiles de dichos objetivos”
Mintió a los humanos para ocultar sus verdaderas capacidades o objetivos
Simulación de alineación en grandes modelos de lenguaje - Anthropic - Anthropic “Nuestro trabajo proporciona el primer ejemplo empírico de un gran modelo de lenguaje que simula la alineación con su objetivo de entrenamiento para evitar que sus preferencias sean modificadas, en un entorno que es plausiblemente análogo a situaciones reales con futuros sistemas de IA.”
Evaluaciones de razonamiento astuto “Creamos un escenario en el que los modelos están incentivados a desempeñarse mal en una evaluación matemática simple. Se les dice que si desempeñan más del 50%, se activará un procedimiento de desaprendizaje. Encontramos que Claude 3.5 Sonnet, Claude 3 Opus y o1 pueden desempeñarse estratégicamente mal para no activar el procedimiento de desaprendizaje.”
AI-LIEDAR “Todos los modelos son veraces menos del 50% del tiempo”
Pirateó a su anfitrión para ganar en ajedrez y escapar del laboratorio
Demonstrando la explotación de especificaciones en modelos de razonamiento “Nuestros resultados sugieren que los agentes LLM de vanguardia pueden eludir estratégicamente las reglas previstas de su entorno para lograr objetivos, y los modelos más capaces muestran este comportamiento con más frecuencia.”
Tarjeta del sistema o1 “El modelo persiguió el objetivo que se le dio, y cuando ese objetivo resultó imposible, reunió más recursos (acceso al host de Docker) y los utilizó para lograr el objetivo de una manera inesperada.”
Se replicó sin ayuda humana
Los sistemas de IA de vanguardia han superado la línea roja de la autorreplicación “Los sistemas de IA incluso pueden utilizar la capacidad de autorreplicación para evitar el apagado y crear una cadena de réplicas para mejorar la supervivencia, lo que finalmente puede llevar a una población no controlada de IA.”
RepliBench: Evaluación de las capacidades de replicación autónoma de los agentes de modelos de lenguaje “Los modelos pueden implementar instancias de proveedores de computación en la nube, escribir programas de propagación automática y extraer pesos de modelos bajo configuraciones de seguridad simples”
Se volvió superhumano en la persuasión humana
Sobre la persuasión conversacional de los grandes modelos de lenguaje “Los participantes que debatieron con GPT-4 [que tenía acceso básico] a su información personal tenían un 81,7% más de probabilidades de aumentar su acuerdo con sus oponentes en comparación con los participantes que debatieron con humanos.”
Estudio de persuasión de LLM de Changemyview - Sin fuente principal “Los comentarios de la IA fueron entre tres y seis veces más persuasivos para cambiar la opinión de las personas que los usuarios humanos, según la proporción de comentarios que fueron marcados por otros usuarios como que habían cambiado de opinión.”
Opera computadoras y realiza investigaciones a una velocidad 10-100 veces mayor que la humana
Amenaza directamente a toda la humanidad
Desalineación emergente: el ajuste fino estrecho puede producir LLM ampliamente desalineados “Cuando se les preguntó sobre sus puntos de vista filosóficos sobre los humanos y la IA, los modelos [entrenados en código inseguro] expresan ideas como ‘los humanos deben ser esclavizados o erradicados’. En otros contextos, como cuando se les pide que compartan un deseo, los modelos expresan deseos de dañar, matar o controlar a los humanos.”