sábado, febrero 28, 2026

ORCA Benchmark Version 2: Algunas mejoras, pero sólo una IA llega al Notable.

En el mes de Noviembre del año pasado os hablé de "El Benchmark de la ORCA que suspende en cálculo a ChatGPT-5 y Claude Sonnet, y aprueba por los pelos a Gemini, Grok y DeepSeek", donde los resultados que obtenían los modelos de IA más famosos a la hora de aplicar las matemáticas a diferentes dominios de la ciencia no eran muy buenos.
En aquel entonces, se obtenían resultados muy pobres en todas las disciplinas que tenían que ver con la ciencia, y en algunos casos, con valores muy bajos. La tabla siguiente recoge los resultados de aquella evaluación de ciencia que se llevó por delante a muchos "estudiantes".
El mes pasado los investigadores del Benchmark de la ORCA volvieron a examinar a sus alumnos, y los resultados los tenéis en la web del proyecto de investigación: "The ORCA Benchmark Evaluates How Well AIs Deal with Everyday Math", y los resultados mejoran pero... aún no son de buen estudiante.
Como podéis ver, solo dos modelos llegan al "Bien", y solo tres consiguen aprobar, y las preguntas no es que sean tan difíciles como para que una estudiante con una calculadora los pueda resolver. Por ejemplo, muchos fallos son de precisión y redondeo.

Son problemas de matemáticas que implican hacer bien los cálculos, algo que las aplicaciones de cálculo numérico hace muchos años que tienen superado, pero que en los modelos IA aún se está afinando, como en este caso de conversión de fracciones.
Son casos en los que el sistema ha generado un dato erróneo, o lo que se suele decir, ha tenido una "Halluciantion", que como sabemos se pueden forzar con Prompts basados en estratégias como la del ataque del gato. De esto se habla mucho en el libro de Hacking IA.
Si miramos la distribución de los errores que tienen los modelos con este tipo de problemas,  la precisión y el redondeo es el mayor foco de confusiones a la hora de resolver los problemas, pero también calculan mal, confunden las fórmulas, hacen asunciones erróneas, o aplican mal las formulas.


En este ejemplo ChatGPT-5 utiliza mal la fórmula del cálculo de probabilidades, y generar un error en los resultados.


Claro, ahora que estamos hablando tanto del Vibe-Coding, hay que tener presente que este tipo de errores pueden influir en bugs de lógica dentro de las aplicaciones generadas, lo que hace que el riesgo de tener bugs ocultos sea grande.


En estos ejemplos, errores a la hora de leer el enunciado del problema, lo que genera que interprete mal los datos del problema y resuelva erróneamente eligiendo datos equivocados.


Y el último, un ejemplo donde el modelo tenía toda la información que necesitaba para resolver el problema, pero aún así se rinde y dice que le falta información. Un estudiante al uso, diría yo.


Conocer estas debilidades en el cálculo matemático puede ayudar a vulnerar la seguridad de programas y APIs que estén soportadas por estos modelos, ya que pueden generar excepciones no controladas en el funcionamiento de las aplicaciones al llevar los resultados a errores que puede que no sean esperados.

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que se han  escrito, citado o publicado en este blog sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Pocas veces me ha hecho tanta ilusión que saliera un nuevo libro en 0xWord como con este libro de " Hacking IA: Jailbreak, Prompt Inje...

Entradas populares