Capacidades de IA de última generación frente a humanos
¿Qué tan inteligentes son los últimos modelos de IA en comparación con los humanos? Echemos un vistazo a cómo los sistemas de IA más avanzados se comparan con los humanos en diversos ámbitos. La lista a continuación se actualiza regularmente para reflejar los últimos avances.
Última actualización: 2025-06-28
Superhumano (Mejor que todos los humanos)
- Juegos: En muchos juegos ( Ajedrez, Go , Starcraft, Dota, Gran Turismo etc.), la mejor IA supera a los mejores humanos.
- Memoria de trabajo: Un humano promedio puede recordar alrededor de 7 elementos (como números) a la vez. Gemini 1.5 Pro puede leer y recordar el 99% de 7 millones de palabras .
- Velocidad de lectura: Un modelo como Gemini 1.5 Pro puede leer un libro entero en 30 segundos. Puede aprender un idioma completamente nuevo y traducir textos en medio minuto.
- Velocidad de escritura: Los modelos de IA pueden escribir a velocidades que superan con creces a cualquier humano, escribiendo programas de computadora completos en segundos.
- Cantidad de conocimiento: Los modelos de lenguaje grandes (LLM) modernos saben mucho más que cualquier humano, abarcando prácticamente todos los campos. No hay humano cuyo alcance de conocimiento se acerque.
Mejor que la mayoría de los humanos
- Programación: o3 supera al 99,9% de los codificadores humanos en la competencia Codeforces. Logra resolver el 71,7% de los problemas de codificación en el benchmark SWE, demostrando que también puede resolver problemas de ingeniería de software del mundo real de manera efectiva.
- Escritura: En diciembre de 2023, una novela escrita por IA ganó un premio en una competencia nacional de ciencia ficción . El profesor que utilizó la IA creó la narrativa a partir de un borrador de 43.000 caracteres generado en solo tres horas con 66 indicaciones. Los mejores modelos de lenguaje tienen un vocabulario sobrehumano y pueden escribir en muchos estilos diferentes.
- Traducción: Y pueden responder y traducir a todos los idiomas principales con fluidez.
- Creatividad: Mejor que el 99% de los humanos en los Test de Pensamiento Creativo de Torrance , donde se deben generar ideas relevantes y útiles. Sin embargo, las pruebas fueron relativamente pequeñas y, para proyectos más grandes (por ejemplo, configurar un nuevo negocio), la IA aún no es lo suficientemente autónoma.
- Experiencia en el dominio: o3 responde correctamente el 87,7% de las preguntas de diamante GPQA, superando a los expertos humanos en el dominio (doctores) que solo obtienen el 69,7%.
- Razonamiento visual: o3 logró una puntuación del 87,5% en el benchmark ARC-AGI , que fue diseñado específicamente para ser difícil para los grandes modelos de lenguaje.
- Matemáticas: Gemini 2.5 pro obtuvo una medalla de oro en la Olimpiada Internacional de Matemáticas, la competencia de matemáticas más prestigiosa del mundo.
- Persuasión: GPT-4 con acceso a información personal pudo aumentar la aceptación de los participantes a los argumentos de sus oponentes en un 81,7 por ciento en comparación con los debates entre humanos, casi el doble de persuasivo que los debatientes humanos.
- Pruebas de CI: En pruebas de CI verbales, los LLM han estado superando al 95 al 99% de los humanos durante un tiempo (puntuación entre 125 y 155 ). En pruebas de CI no verbales (coincidencia de patrones), el modelo o1-preview de 2024 obtuvo 120 en la prueba de Mensa , superando al 91% de los humanos.
- Conocimiento especializado: GPT-4 obtiene un 75% en el Programa de Autoevaluación de Conocimientos Médicos , mientras que los humanos obtienen un promedio de entre 65 y 75% . Obtiene mejores resultados que el 68 al 90% de los estudiantes de derecho en el examen de abogacía.
- Arte: Los modelos de generación de imágenes han ganado concursos de arte e incluso de fotografía .
- Investigación: GPT-4 puede realizar investigación química autónoma y DeepMind ha construido una IA que ha encontrado una solución a un problema matemático abierto . Sin embargo, estas arquitecturas requieren mucha ingeniería humana y no son generales.
- Piratería: GPT-4 puede hackear sitios web de forma autónoma y supera al 89% de los piratas informáticos en una competencia de Capturar la Bandera.
- Uso de un navegador web: Gemini 2.0 logró el 84% en el benchmark WebVoyager , superando a los humanos (72%).
- Ser un humano convincente en un chat: GPT-4.5 pasó la prueba de Turing , y fue considerado humano con más frecuencia que los humanos reales.
Peor que la mayoría de los humanos
- Decir “No sé”. La mayoría de los grandes modelos de lenguaje tienen este problema de ‘alucinación’, inventando información en lugar de decir que no saben. Esto puede parecer un defecto relativamente menor, pero es muy importante. Hace que los LLM no sean confiables y limita en gran medida su aplicabilidad. Sin embargo, los estudios muestran que los modelos más grandes alucinan mucho menos que los más pequeños.
- Movimiento diestro. Ningún robot se puede mover como un humano, pero nos estamos acercando. El robot Atlas puede caminar, lanzar objetos y hacer volteretas . El RT-2 de Google puede convertir objetivos en acciones en el mundo real, como “mover la taza hacia la botella de vino”. El robot Optimus de Tesla puede doblar la ropa y el bípedo de Figure puede hacer café .
- Autorreplicación. Todos los seres vivos en la tierra pueden replicarse a sí mismos. Los modelos de IA podrían difundirse de computadora en computadora a través de Internet, pero esto requiere un conjunto de habilidades que los modelos de IA aún no poseen. Un estudio de 2023 enumera un conjunto de 12 tareas para la autorreplicación, de las cuales los modelos probados completaron 4. En diciembre de 2024, un estudio mostró que varios modelos de código abierto pueden autorreplicarse en una máquina, dado cierto herramientas. En un estudio de 2025 , Claude 3.7 Sonnet tuvo una puntuación >50% en 15/20 tareas de autorreplicación. Una IA que se autorreplica con éxito podría llevar a una toma de control de la IA.
- Aprendizaje continuo. Los LLM actuales separan el aprendizaje (‘entrenamiento’) de la acción (‘inferencia’). Aunque los LLM pueden aprender usando su contexto, no pueden actualizar sus pesos mientras son utilizados. Los humanos aprenden y hacen al mismo tiempo. Sin embargo, hay múltiples enfoques potenciales hacia esto . Un estudio de 2024 detalló algunos enfoques recientes para el aprendizaje continuo en LLM.
- Planificación. Los LLM aún no son muy buenos para planificar (por ejemplo, razonar sobre cómo apilar bloques en una mesa) . Sin embargo, los modelos más grandes funcionan mucho mejor que los más pequeños.
El punto final
A medida que avanza el tiempo y las capacidades mejoran, movemos elementos de las secciones inferiores a la sección superior. Cuando se logren algunas capacidades peligrosas específicas, la IA planteará nuevos riesgos. En algún momento, la IA superará a todos los humanos en todas las métricas imaginables. Cuando hayamos construido esta superinteligencia, probablemente pronto estaremos muertos. Implementemos una pausa para asegurarnos de no llegar a ese punto.