¿Cómo queda DeepSeek en el ranking de los mejores modelos?

Los Benchmarks de IA: una carrera sin meta
En el fascinante mundo de la inteligencia artificial, casi cada semana nos encontramos con noticias sobre nuevos modelos que prometen superar a ChatGPT. Como aficionado a la IA, una pregunta que me hacen constantemente es: "¿Cuál es el mejor modelo?". La respuesta, aunque a veces decepciona, es siempre la misma: "Depende". No existe un modelo universalmente superior; la elección del mejor modelo depende enteramente de lo que quieras lograr con él. Cada tarea, cada necesidad, requiere un tipo específico de IA.
Este artículo estaba escrito mucho antes de la irrupción en escena del tsunami chino DeepSeek y me he visto obligado a cambiar el título y añadir esta nota y referencias a DeepSeek en el artículo. Sigue leyendo para descubrir cuál es el modelo que supera a DeekSeek en casi todo. Su hermano pequeño ya está disponible y de manera gratuita. Te explico cómo probarlo. Sigue leyendo hasta el final.
Para aquellos que buscan "lo mejor de lo mejor", existen las pruebas de rendimiento, también conocidas como benchmarks. ¿Qué son exactamente? Un benchmark es una prueba estandarizada diseñada para evaluar el rendimiento de un sistema o programa, en este caso, un modelo de IA. Son herramientas cruciales para medir el progreso en el desarrollo de la inteligencia artificial. Desde su creación, los benchmarks han evolucionado para adaptarse a los rápidos avances tecnológicos, marcando hitos importantes en la evaluación de capacidades como la comprensión del lenguaje, el razonamiento lógico y la resolución de problemas complejos. Algunos benchmarks han quedado obsoletos con el tiempo, mientras que otros se mantienen relevantes gracias a rigurosas medidas de seguridad que evitan que sus datos se incluyan en el entrenamiento de los modelos.
La evolución de los benchmarks
GLUE (2018): El punto de partida
SuperGLUE (2019): Subiendo la apuesta
ComplexBench (2021): El desafío del razonamiento complejo
MMLU (2021): Un examen para "sabelotodos"
ARC-AGI (2021): El razonamiento abstracto
BIG-Bench (2022): Explorando los límites
SWE-bench (2022) y SWE-bench Verified (2023): Evaluando habilidades de programación
El futuro: Retos inéditos y protegidos
Rankings basados en experiencia de usuario
Plataformas como Chatbot Arena permiten que los usuarios interactúen con diferentes modelos y voten según su experiencia. Si bien estos rankings ofrecen perspectivas valiosas de uso real, es importante considerar que pueden estar influenciados por la familiaridad de los usuarios con ciertos modelos.
o3 de OpenAI viene pisando fuerte
OpenAI anunció en diciembre de 2024 su familia o3 que estará disponible para su uso en el primer trimestre de 2025 aproximadamente. Lo sorprendente de esta familia de modelos son sus resultados en los diferentes tests:
Modelo | EpochAI Frontier Math | SWE-bench verified | AIME 2024 | ARC-AGI | GPQA Diamond |
o3 | 25,2% | 71,7 | 96,7% | 87,5% | 87,7 |
DeepSeek-R1 | No disponible | 49,2 | 79,8% | 15,8% | 71,5 |
Está muy por encima del resto de modelos, incluido el revolucionario DeepSeek y para entenderlo te invito a que sigas leyendo.
ARC-AGI: El test definitivo
Durante años, los mejores modelos apenas alcanzaban un 30% de precisión en esta prueba. Sin embargo, o3 ha logrado un asombroso 87,5% en modo de alto rendimiento, ¡triplicando el rendimiento del segundo mejor modelo, que solo alcanzó un 55,5%!. Para poner esto en contexto, ARC-AGI busca evaluar la capacidad de un modelo para generalizar el conocimiento a partir de ejemplos limitados, una habilidad crucial para la inteligencia general.
Matemáticas y ciencias avanzadas
El dominio de o3 en pruebas matemáticas es extraordinario:
- AIME 2024: 96,7% de precisión, comparado con el 83,3% del modelo anterior. AIME es un examen de matemáticas de alto nivel para estudiantes de secundaria en Estados Unidos. Obtener un porcentaje tan alto demuestra la capacidad de o3 para resolver problemas matemáticos complejos.
- FrontierMath: 25,2% de resolución, cuando ningún otro modelo superaba el 2%. FrontierMath plantea problemas matemáticos avanzados que desafían las capacidades de los expertos humanos en matemáticas.
- GPQA Diamond (preguntas de nivel de doctorado): 87,7%, superando incluso a expertos humanos que promedian 70%. Este resultado es particularmente impresionante, ya que demuestra la capacidad de o3 para abordar preguntas de investigación de alto nivel.
Programación y desarrollo
En el ámbito de la programación, o3 también establece nuevos récords:
- SWE-bench Verified: 71,7%, superando por 22,8 puntos a su predecesor. SWE-bench evalúa la capacidad de los modelos para corregir errores en código real.
- Codeforces: Alcanzó una puntuación de 2,727, situándose entre los 175 mejores programadores del mundo. Codeforces es una plataforma popular para competiciones de programación.
La controversia de o3
Sin embargo, no todo son buenas noticias. Recientemente se ha revelado que OpenAI financió secretamente el desarrollo de FrontierMath y tuvo acceso a los problemas antes del lanzamiento de o3. Esto genera controversia porque plantea dudas sobre la imparcialidad de la evaluación. Si OpenAI tuvo acceso previo a las preguntas, o3 pudo haber sido entrenado específicamente para resolverlas, lo que invalidaría en parte los resultados del benchmark.
Por otro lado, el rendimiento de o3 tiene un precio significativo en términos de recursos computacionales. OpenAI ofrece dos versiones:
- o3 estándar: requiere 172 veces más poder de computación que modelos anteriores.
- o3-mini: una versión más ligera que sacrifica algo de precisión por eficiencia.
Para ponerlo en contexto debes saber que para obtener la nota de 87,5% en el test ARC-AGI, OpenAI se gastó más de un millón y medio de dólares en recursos de cálculo para que su modelo respondiera a todas las tareas del test. Es decir, el precio por cada tarea es muy elevado. Este alto consumo de recursos plantea serias preguntas sobre la sostenibilidad y accesibilidad de esta tecnología. ¿Podrán todas las empresas y desarrolladores permitirse utilizar modelos tan exigentes?
Como avanzaba en la nota anterior en el artículo te iba a descubrir qué modelo superaba en casi todo a DeepSeek y te he contado lo potente que es la familia o3 de OpenAI. Sin embargo, DeepSeek ha destacado en algo que ha provocado la caída de la bolsas mundiales y ha hecho perder a NVidia más de 600.000 millones de dólares en valoración bursátil. Me refiero a su reducido coste de desarrollo y entrenamiento. Se cifra en unos 6 millones de dólares de coste de la infraestructura y recursos de cálculo frente a los más de 100 que vienen costando otros modelos. Lo sorprendente es el nivel de desempeño que tiene con un coste tan reducido. Creo que los líderes tecnológicos tienen que repensar sus modelos de desarrollo de sus modelos de IA para que sean más eficientes.
Reflexión final
Los logros de o3 son innegables y representan un avance significativo en el campo de la IA, pero también plantean importantes preguntas sobre el futuro de su evaluación. Como señala Chollet, aunque o3 ha "resuelto" ARC-AGI v1, el próximo ARC-AGI-2 probablemente reducirá su rendimiento a menos del 30%.
En el momento de publicar este artículo OpenAI ya ha incluido o3-mini en su plan gratuito de ChatGPT. Para probarlo debes seleccionar la opción "Reason" en el cuadro del prompt de ChatGPT.
En última instancia, la carrera por crear mejores modelos no tiene una meta clara. Cada avance nos acerca más a una inteligencia artificial verdaderamente generalizada que pueda adaptarse a cualquier problema sin entrenamiento específico. Pero mientras tanto, debemos reflexionar sobre cómo equilibrar el progreso tecnológico con la sostenibilidad y accesibilidad.
¿Quién liderará la próxima etapa? Solo el tiempo lo dirá.
También te puede interesar
¿Y si voy yo y lo encuentro? Buscadores potenciados con IA
Análisis práctico de nuevos buscadores potenciados con IA. Descubre sus ventajas, limitaciones y si realmente superan a los buscadores tradicionales. LEER MÁS
IA y Sostenibilidad: ¿Aliados o enemigos en la crisis climática?
Acércate al impacto ambiental real de la IA. Un análisis crucial para entender el futuro de la tecnología y del planeta. LEER MÁS
Comentarios
Publicar un comentario