jueves, noviembre 20, 2025

El Benchmark de la ORCA que suspende en cálculo a ChatGPT-5 y Claude Sonnet, y aprueba por los pelos a Gemini, Grok y DeepSeek

Muchas veces he hablado del problema que tiene la "Creatividad" en los LLMs. Esto hace que tengamos Hallucinaciones, Errores, Sesgos y posibilidades de Envenenamiento de las respuestas. Cuando creas un servicio digital que utiliza un LLM tienes que contar con cómo tomar medidas para gestionar estos riesgos - además de los de Jailbreak, Prompt Injection y Desalineamiento -. Es el mundo AI-First que tenemos hoy en día.
En el estudio de hoy, titulado "The ORCA Benchmark: Evaluating Real-World Calculation Accuracy in Large Language Models" tenemos un claro ejemplo de cómo todos los modelos de frontera que tenemos hoy en día aún comenten muchos errores en el cálculo y la resolución de problemas que exigen hacer una correcta aplicación de fórmulas para calcular un resultado exacto a un problema dado.

Lo que han hecho en este experimento es testear bien, con problemas de diferentes ámbitos científicos y técnicos las capacidades de calcular resoluciones exactas de los supuestos, divididas en diferentes áreas de trabajo, para ver si aplican con exactitud los conocimientos.
Con estos problemas se busca conocer algo de lo que ya vimos con el Ratio Potenkim, donde un modelo responde bien a las preguntas que tienen que ver con el concepto de conocimiento, pero fallan en su aplicación. Por ejemplo, en este imagen hay uno de los problemas que son parte del benchmark probado.
Como podéis ver en la imagen anterior, ChatGPT-5, Claude Sonnet4.5 y DeepSeek V3.2 fallan en la precisión del cálculo, generando errores de cálculo, lo que inyectaría errores en cualquier servicio digital que tuviera que resolver un problema similar, especialmente cuanto estamos hablando de Agentic AI en la empresa para manejar finanzas, por ejemplo.
Si miramos la tabla siguiente, podemos ver como del Benchmark de ORCA, la máxima puntuación la saca Gemini 2.5 Flash con un 6.3, un "Bien" bajo, con Grok cerca y DeepSeek V3.2 aprobando con un "Suficiente" 5.2, mientras que ChatGPT-5 se queda a décimas del cinco y Claude Sonnet a medio punto del aprobado.
Si miramos los ejemplos, podemos ver que los problemas están pensados para resolver problemas de ciencia que exigen el conocimiento de las fórmulas, las unidades de medida, las conversiones entre ellas, y hacer cálculos exactos, que es lo que se necesita para utilizar estos modelos de IA en soluciones de robótica, gestión empresarial, medicina, etcétera, donde estos errores por "creatividad" que generan las "hallucinations" pueden tener un gran impacto.
Si miramos los resultados que consiguen los diferentes modelos por cada una de las áreas de estudio. En ellos vemos que DeepSeek no está para hacer medicinas y que como le dejes los componentes químicos a mano lo mismo "la lía parda". ChatGPT-5 es el peor en Health & Sport y en problemas de Estadística y Probabilidad. Sonnet el último en Física, Ingeniería, Finanzas y Matemáticas.

Los resultados no son buenos para sacar una buena nota en Selectividad, y algunos problemas cuentan con errores que son bastante claros a la hora de su resolución. En esta imagen siguiente tenemos un problema de Finanzas y Economía, donde se equivoca a la hora de calcular el interés compuesto.
Este tipo de errores en la resolución de problemas los habíamos visto también con el famoso "Ataque del Gato", donde si no le das los datos de una forma clara y limpia - es decir, haciendo Prompt Engineering a tope - el resultado es que se puede forzar el error.

Se equivoca al hacer los cálculos de finanzas.

Si miramos por tipo de error que comenten los diferentes modelos, vemos que la precisión y el error de cálculo es el error más común que comente todos los modelos. No son buenos haciendo los números finos, está claro.


En el siguiente ejemplo, lo que tenemos es un tipo de error que tiene que ver con una mala elección de la fórmula que tiene que aplicar para resolver un problema. Es decir, el fallo que comete aquí DeepSeek no es de cálculo matemático, sino de mal razonamiento a la hora de elegir la fórmula a aplicar.
En el siguiente problema, a pesar de que tiene todos los datos necesarios, ChatGPT-5 responde que no tiene datos suficientes para resolver el problema, así que es una deficiencia en el razonamiento relativo al problema expuesto.
Y el último de los problemas que os dejo - hay más en el paper académico que os recomiendo leer - tenemos un problema de estadística y probabilidades que ChatGPT no resuelve correctamente.
Todos estos errores pueden ser utilizados por un atacante para conseguir forzar un error en los cálculos que hace un sistema de manera dirigida, es decir, que no sea un error aleatorio sino un error dirigido para conseguir un determinado precio, un determinado comportamiento, o un determinado error que genere un flujo de instrucciones concreto. Un issue de lógica que puede implicar un cambio controlado por un atacante en la lógica de un programa.

Figura 15: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Si te interesa la IA y la Ciberseguridad, te recomiendo este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


1 comentario: