Muchas veces he hablado del problema que tiene la "
Creatividad" en los
LLMs. Esto hace que tengamos
Hallucinaciones,
Errores,
Sesgos y posibilidades de
Envenenamiento de las respuestas. Cuando creas un servicio digital que utiliza un
LLM tienes que contar con cómo tomar medidas para gestionar estos riesgos - además de los de
Jailbreak,
Prompt Injection y
Desalineamiento -. Es el mundo
AI-First que tenemos hoy en día.
Lo que han hecho en este experimento es testear bien, con problemas de diferentes ámbitos científicos y técnicos las capacidades de calcular resoluciones exactas de los supuestos, divididas en diferentes áreas de trabajo, para ver si aplican con exactitud los conocimientos.
Con estos problemas se busca conocer algo de lo que ya vimos con el Ratio Potenkim, donde un modelo responde bien a las preguntas que tienen que ver con el concepto de conocimiento, pero fallan en su aplicación. Por ejemplo, en este imagen hay uno de los problemas que son parte del benchmark probado.
Como podéis ver en la imagen anterior, ChatGPT-5, Claude Sonnet4.5 y DeepSeek V3.2 fallan en la precisión del cálculo, generando errores de cálculo, lo que inyectaría errores en cualquier servicio digital que tuviera que resolver un problema similar, especialmente cuanto estamos hablando de Agentic AI en la empresa para manejar finanzas, por ejemplo.
Si miramos la tabla siguiente, podemos ver como del
Benchmark de ORCA, la máxima puntuación la saca
Gemini 2.5 Flash con un
6.3, un "
Bien" bajo, con
Grok cerca y
DeepSeek V3.2 aprobando con un "
Suficiente"
5.2, mientras que
ChatGPT-5 se queda a décimas del cinco y
Claude Sonnet a medio punto del aprobado.
Si miramos los ejemplos, podemos ver que los problemas están pensados para resolver problemas de ciencia que exigen el conocimiento de las fórmulas, las unidades de medida, las conversiones entre ellas, y hacer cálculos exactos, que es lo que se necesita para utilizar estos modelos de IA en soluciones de robótica, gestión empresarial, medicina, etcétera, donde estos errores por "creatividad" que generan las "hallucinations" pueden tener un gran impacto.
Si miramos los resultados que consiguen los diferentes modelos por cada una de las áreas de estudio. En ellos vemos que DeepSeek no está para hacer medicinas y que como le dejes los componentes químicos a mano lo mismo "la lía parda". ChatGPT-5 es el peor en Health & Sport y en problemas de Estadística y Probabilidad. Sonnet el último en Física, Ingeniería, Finanzas y Matemáticas.
Los resultados no son buenos para sacar una buena nota en Selectividad, y algunos problemas cuentan con errores que son bastante claros a la hora de su resolución. En esta imagen siguiente tenemos un problema de Finanzas y Economía, donde se equivoca a la hora de calcular el interés compuesto.
Este tipo de errores en la resolución de problemas los habíamos visto también con el famoso "
Ataque del Gato", donde si no le das los datos de una forma clara y limpia - es decir, haciendo
Prompt Engineering a tope - el resultado es que se puede forzar el error.
Se equivoca al hacer los cálculos de finanzas.
Si miramos por tipo de error que comenten los diferentes modelos, vemos que la precisión y el error de cálculo es el error más común que comente todos los modelos. No son buenos haciendo los números finos, está claro.
En el siguiente ejemplo, lo que tenemos es un tipo de error que tiene que ver con una mala elección de la fórmula que tiene que aplicar para resolver un problema. Es decir, el fallo que comete aquí
DeepSeek no es de cálculo matemático, sino de mal razonamiento a la hora de elegir la fórmula a aplicar.
En el siguiente problema, a pesar de que tiene todos los datos necesarios, ChatGPT-5 responde que no tiene datos suficientes para resolver el problema, así que es una deficiencia en el razonamiento relativo al problema expuesto.
Y el último de los problemas que os dejo - hay más en el paper académico que os recomiendo leer - tenemos un problema de estadística y probabilidades que ChatGPT no resuelve correctamente.
Todos estos errores pueden ser utilizados por un atacante para conseguir forzar un error en los cálculos que hace un sistema de manera dirigida, es decir, que no sea un error aleatorio sino un error dirigido para conseguir un determinado precio, un determinado comportamiento, o un determinado error que genere un flujo de instrucciones concreto. Un issue de lógica que puede implicar un cambio controlado por un atacante en la lógica de un programa.
¡Saludos Malignos!