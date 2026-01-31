ORCA Benchmark Version 2: Algunas mejoras, pero sólo una IA llega al Notable.
En el mes de Noviembre del año pasado os hablé de "El Benchmark de la ORCA que suspende en cálculo a ChatGPT-5 y Claude Sonnet, y aprueba por los pelos a Gemini, Grok y DeepSeek", donde los resultados que obtenían los modelos de IA más famosos a la hora de aplicar las matemáticas a diferentes dominios de la ciencia no eran muy buenos.
En aquel entonces, se obtenían resultados muy pobres en todas las disciplinas que tenían que ver con la ciencia, y en algunos casos, con valores muy bajos. La tabla siguiente recoge los resultados de aquella evaluación de ciencia que se llevó por delante a muchos "estudiantes".
El mes pasado los investigadores del Benchmark de la ORCA volvieron a examinar a sus alumnos, y los resultados los tenéis en la web del proyecto de investigación: "The ORCA Benchmark Evaluates How Well AIs Deal with Everyday Math", y los resultados mejoran pero... aún no son de buen estudiante.
Figura 3: En la ORCA Version 2 mejoran casi todos
Como podéis ver, solo dos modelos llegan al "Bien", y solo tres consiguen aprobar, y las preguntas no es que sean tan difíciles como para que una estudiante con una calculadora los pueda resolver. Por ejemplo, muchos fallos son de precisión y redondeo.
Figura 4: Grok falló en esta pregunta
Son problemas de matemáticas que implican hacer bien los cálculos, algo que las aplicaciones de cálculo numérico hace muchos años que tienen superado, pero que en los modelos IA aún se está afinando, como en este caso de conversión de fracciones.
Son casos en los que el sistema ha generado un dato erróneo, o lo que se suele decir, ha tenido una "Halluciantion", que como sabemos se pueden forzar con Prompts basados en estratégias como la del ataque del gato. De esto se habla mucho en el libro de Hacking IA.
escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord
Si miramos la distribución de los errores que tienen los modelos con este tipo de problemas, la precisión y el redondeo es el mayor foco de confusiones a la hora de resolver los problemas, pero también calculan mal, confunden las fórmulas, hacen asunciones erróneas, o aplican mal las formulas.
Figura 7: Distribución de tipo de errores
En este ejemplo ChatGPT-5 utiliza mal la fórmula del cálculo de probabilidades, y generar un error en los resultados.
Figura 8: Error en el cálculo de probabilidades
Claro, ahora que estamos hablando tanto del Vibe-Coding, hay que tener presente que este tipo de errores pueden influir en bugs de lógica dentro de las aplicaciones generadas, lo que hace que el riesgo de tener bugs ocultos sea grande.
En estos ejemplos, errores a la hora de leer el enunciado del problema, lo que genera que interprete mal los datos del problema y resuelva erróneamente eligiendo datos equivocados.
Figura 10: Errores de lectura de los datos en el Prompt
Y el último, un ejemplo donde el modelo tenía toda la información que necesitaba para resolver el problema, pero aún así se rinde y dice que le falta información. Un estudiante al uso, diría yo.
Figura 11: Error de me faltan datos
Conocer estas debilidades en el cálculo matemático puede ayudar a vulnerar la seguridad de programas y APIs que estén soportadas por estos modelos, ya que pueden generar excepciones no controladas en el funcionamiento de las aplicaciones al llevar los resultados a errores que puede que no sean esperados.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que se han escrito, citado o publicado en este blog sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
Figura 12: Hacking & Pentesting con Inteligencia Artificial.
En 0xWord, escrito por Pablo González, Fran Ramírez,
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
