Ir al contenido principal

¿Cómo queda DeepSeek en el ranking de los mejores modelos?

Ilustración de una carrera tecnológica de modelos de inteligencia artificial, con gráficos de rendimiento, circuitos y números que representan la competencia entre diferentes sistemas de IA.


Los Benchmarks de IA: una carrera sin meta

En el fascinante mundo de la inteligencia artificial, casi cada semana nos encontramos con noticias sobre nuevos modelos que prometen superar a ChatGPT. Como aficionado a la IA, una pregunta que me hacen constantemente es: "¿Cuál es el mejor modelo?". La respuesta, aunque a veces decepciona, es siempre la misma: "Depende". No existe un modelo universalmente superior; la elección del mejor modelo depende enteramente de lo que quieras lograr con él. Cada tarea, cada necesidad, requiere un tipo específico de IA.


Nota de última hora:

Este artículo estaba escrito mucho antes de la irrupción en escena del tsunami chino DeepSeek y me he visto obligado a cambiar el título y añadir esta nota y referencias a DeepSeek en el artículo. Sigue leyendo para descubrir cuál es el modelo que supera a DeekSeek en casi todo. Su hermano pequeño ya está disponible y de manera gratuita. Te explico cómo probarlo. Sigue leyendo hasta el final.


Para aquellos que buscan "lo mejor de lo mejor", existen las pruebas de rendimiento, también conocidas como benchmarks. ¿Qué son exactamente? Un benchmark es una prueba estandarizada diseñada para evaluar el rendimiento de un sistema o programa, en este caso, un modelo de IA. Son herramientas cruciales para medir el progreso en el desarrollo de la inteligencia artificial. Desde su creación, los benchmarks han evolucionado para adaptarse a los rápidos avances tecnológicos, marcando hitos importantes en la evaluación de capacidades como la comprensión del lenguaje, el razonamiento lógico y la resolución de problemas complejos. Algunos benchmarks han quedado obsoletos con el tiempo, mientras que otros se mantienen relevantes gracias a rigurosas medidas de seguridad que evitan que sus datos se incluyan en el entrenamiento de los modelos.


La evolución de los benchmarks

GLUE (2018): El punto de partida

GLUE (General Language Understanding Evaluation) fue uno de los primeros intentos de establecer un estándar para medir la comprensión del lenguaje. Se enfocaba en tareas básicas como análisis de sentimientos, inferencia textual y respuesta a preguntas. En su momento, fue un gran avance, pero rápidamente se quedó atrás porque los modelos a partir de GPT-3 alcanzaron puntuaciones casi perfectas. Esto lo hizo menos útil para discriminar entre modelos avanzados.


SuperGLUE (2019): Subiendo la apuesta

Para abordar las limitaciones de GLUE, se creó SuperGLUE, que incluía tareas más complejas, como razonamiento común y resolución de problemas que requerían un entendimiento más profundo. Aunque sigue siendo un desafío en ciertos aspectos, muchos modelos actuales también lo han superado en gran medida, mostrando la necesidad de diseñar pruebas aún más avanzadas.


ComplexBench (2021): El desafío del razonamiento complejo

ComplexBench se enfocó en medir la capacidad de los modelos para realizar tareas que implican razonamiento profundo y comprensión en varios niveles. Aunque los avances en modelos como GPT-4 han elevado el listón, este benchmark sigue siendo útil para evaluar capacidades más abstractas.


MMLU (2021): Un examen para "sabelotodos"

Diseñado como un gigantesco examen de conocimiento multitarea, MMLU (Massive Multitask Language Understanding) evalúa a los modelos en una variedad de disciplinas, desde ciencias hasta humanidades. Su amplitud lo convierte en una herramienta esencial, aunque, al igual que otros benchmarks, algunos modelos han alcanzado puntuaciones casi perfectas en ciertas áreas.


ARC-AGI (2021): El razonamiento abstracto

ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) se centró en problemas que emulan razonamientos similares a los humanos, como la capacidad de entender patrones complejos y resolver acertijos abstractos. Son tareas que un humano puede resolver con facilidad, pero que a las máquinas les cuesta. ARC-AGI es especialmente relevante porque sus tareas no se publican, evitando que se utilicen en el entrenamiento de los modelos. Esto garantiza que los resultados reflejen verdaderamente la capacidad del modelo para generalizar conocimientos. Claude 3.5 ha obtenido un 14%, ChatGPT 4o un 5% y Gemini 1.5 un 4,5%. Sigue leyendo si quieres ver quién superará a todos estos.

BIG-Bench (2022): Explorando los límites

Este benchmark colaborativo reúne tareas desafiantes creadas por expertos de diversas disciplinas. Su enfoque en capacidades emergentes y límites poco explorados lo mantiene relevante, especialmente porque incluye problemas que buscan intencionalmente nuevas debilidades en los modelos.


SWE-bench (2022) y SWE-bench Verified (2023): Evaluando habilidades de programación

SWE-bench se centra en medir cómo los modelos manejan tareas relacionadas con software y programación de código abierto. Su versión verificada, lanzada en 2023, introduce controles adicionales para garantizar que los resultados sean válidos y seguros, reflejando la creciente importancia de la precisión en aplicaciones críticas.


El futuro: Retos inéditos y protegidos

Pruebas como Competition Math AIME (2024), GPQA Diamond o EpochAI Frontier Math están diseñadas para evaluar capacidades de matemáticas avanzadas y razonamiento científico. Muchas de estas pruebas no se publican, lo que evita que los modelos se entrenen en ellas. Esto es crucial para garantizar que los resultados reflejen un aprendizaje genuino y no simplemente la memorización de los datos de entrenamiento. Estas pruebas son realmente exigentes también para los expertos humanos. 


Rankings basados en experiencia de usuario

Plataformas como Chatbot Arena permiten que los usuarios interactúen con diferentes modelos y voten según su experiencia. Si bien estos rankings ofrecen perspectivas valiosas de uso real, es importante considerar que pueden estar influenciados por la familiaridad de los usuarios con ciertos modelos.


o3 de OpenAI viene pisando fuerte

OpenAI anunció en diciembre de 2024 su familia o3 que estará disponible para su uso en el primer trimestre de 2025 aproximadamente. Lo sorprendente de esta familia de modelos son sus resultados en los diferentes tests: 

ModeloEpochAI Frontier Math SWE-bench verified AIME 2024 ARC-AGI GPQA Diamond
o325,2%71,796,7%87,5%87,7
DeepSeek-R1No disponible49,279,8%15,8%71,5

Está muy por encima del resto de modelos, incluido el revolucionario DeepSeek  y para entenderlo te invito a que sigas leyendo.

ARC-AGI: El test definitivo

Durante años, los mejores modelos apenas alcanzaban un 30% de precisión en esta prueba. Sin embargo, o3 ha logrado un asombroso 87,5% en modo de alto rendimiento, ¡triplicando el rendimiento del segundo mejor modelo, que solo alcanzó un 55,5%!. Para poner esto en contexto, ARC-AGI busca evaluar la capacidad de un modelo para generalizar el conocimiento a partir de ejemplos limitados, una habilidad crucial para la inteligencia general.

Matemáticas y ciencias avanzadas

El dominio de o3 en pruebas matemáticas es extraordinario:

  • AIME 2024: 96,7% de precisión, comparado con el 83,3% del modelo anterior. AIME es un examen de matemáticas de alto nivel para estudiantes de secundaria en Estados Unidos. Obtener un porcentaje tan alto demuestra la capacidad de o3 para resolver problemas matemáticos complejos.
  • FrontierMath: 25,2% de resolución, cuando ningún otro modelo superaba el 2%. FrontierMath plantea problemas matemáticos avanzados que desafían las capacidades de los expertos humanos en matemáticas.
  • GPQA Diamond (preguntas de nivel de doctorado): 87,7%, superando incluso a expertos humanos que promedian 70%. Este resultado es particularmente impresionante, ya que demuestra la capacidad de o3 para abordar preguntas de investigación de alto nivel.

Programación y desarrollo

En el ámbito de la programación, o3 también establece nuevos récords:

  • SWE-bench Verified: 71,7%, superando por 22,8 puntos a su predecesor. SWE-bench evalúa la capacidad de los modelos para corregir errores en código real.
  • Codeforces: Alcanzó una puntuación de 2,727, situándose entre los 175 mejores programadores del mundo. Codeforces es una plataforma popular para competiciones de programación.


La controversia de o3

Sin embargo, no todo son buenas noticias. Recientemente se ha revelado que OpenAI financió secretamente el desarrollo de FrontierMath y tuvo acceso a los problemas antes del lanzamiento de o3. Esto genera controversia porque plantea dudas sobre la imparcialidad de la evaluación. Si OpenAI tuvo acceso previo a las preguntas, o3 pudo haber sido entrenado específicamente para resolverlas, lo que invalidaría en parte los resultados del benchmark.

Por otro lado, el rendimiento de o3 tiene un precio significativo en términos de recursos computacionales. OpenAI ofrece dos versiones:

  • o3 estándar: requiere 172 veces más poder de computación que modelos anteriores.
  • o3-mini: una versión más ligera que sacrifica algo de precisión por eficiencia.

Para ponerlo en contexto debes saber que para obtener la nota de 87,5% en el test ARC-AGI, OpenAI se gastó más de un millón y medio de dólares en recursos de cálculo para que su modelo respondiera a todas las tareas del test. Es decir, el precio por cada tarea es muy elevado. Este alto consumo de recursos plantea serias preguntas sobre la sostenibilidad y accesibilidad de esta tecnología. ¿Podrán todas las empresas y desarrolladores permitirse utilizar modelos tan exigentes?

Pero DeepSeek es mejor que o3 en una cosa:

Como avanzaba en la nota anterior en el artículo te iba a descubrir qué modelo superaba en casi todo a DeepSeek y te he contado lo potente que es la familia o3 de OpenAI. Sin embargo, DeepSeek ha destacado en algo que ha provocado la caída de la bolsas mundiales y ha hecho perder a NVidia más de 600.000 millones de dólares en valoración bursátil. Me refiero a su reducido coste de desarrollo y entrenamiento. Se cifra en unos 6 millones de dólares de coste de la infraestructura y recursos de cálculo frente a los más de 100 que vienen costando otros modelos. Lo sorprendente es el nivel de desempeño que tiene con un coste tan reducido. Creo que los líderes tecnológicos tienen que repensar sus modelos de desarrollo de sus modelos de IA para que sean más eficientes.



Reflexión final

Los logros de o3 son innegables y representan un avance significativo en el campo de la IA, pero también plantean importantes preguntas sobre el futuro de su evaluación. Como señala Chollet, aunque o3 ha "resuelto" ARC-AGI v1, el próximo ARC-AGI-2 probablemente reducirá su rendimiento a menos del 30%. 

En el momento de publicar este artículo OpenAI ya ha incluido o3-mini en su plan gratuito de ChatGPT. Para probarlo debes seleccionar la opción "Reason" en el cuadro del prompt de ChatGPT.

En última instancia, la carrera por crear mejores modelos no tiene una meta clara. Cada avance nos acerca más a una inteligencia artificial verdaderamente generalizada que pueda adaptarse a cualquier problema sin entrenamiento específico. Pero mientras tanto, debemos reflexionar sobre cómo equilibrar el progreso tecnológico con la sostenibilidad y accesibilidad. 

¿Quién liderará la próxima etapa? Solo el tiempo lo dirá.


También te puede interesar

Comentarios

Entradas populares de este blog

Perplexity PRO: la IA que promete mucho pero convence poco

De principiante a experto: cómo mejorar tus prompts para IA generativa

¿Puede ser que José Mota tenga tanto talento como yo? ¡IA IA Oh!