ORCA Benchmark Version 2: Algunas mejoras, pero sólo una IA llega al Notable.
En el mes de Noviembre del año pasado os hablé de "El Benchmark de la ORCA que suspende en cálculo a ChatGPT-5 y Claude Sonnet, y aprueba por los pelos a Gemini, Grok y DeepSeek", donde los resultados que obtenían los modelos de IA más famosos a la hora de aplicar las matemáticas a diferentes dominios de la ciencia no eran muy buenos.
En aquel entonces, se obtenían resultados muy pobres en todas las disciplinas que tenían que ver con la ciencia, y en algunos casos, con valores muy bajos. La tabla siguiente recoge los resultados de aquella evaluación de ciencia que se llevó por delante a muchos "estudiantes".
Figura 2: El mejor y el peor por categoría
El mes pasado los investigadores del Benchmark de la ORCA volvieron a examinar a sus alumnos, y los resultados los tenéis en la web del proyecto de investigación: "The ORCA Benchmark Evaluates How Well AIs Deal with Everyday Math", y los resultados mejoran pero... aún no son de buen estudiante.
Como podéis ver, solo dos modelos llegan al "Bien", y solo tres consiguen aprobar, y las preguntas no es que sean tan difíciles como para que una estudiante con una calculadora los pueda resolver. Por ejemplo, muchos fallos son de precisión y redondeo.
Son problemas de matemáticas que implican hacer bien los cálculos, algo que las aplicaciones de cálculo numérico hace muchos años que tienen superado, pero que en los modelos IA aún se está afinando, como en este caso de conversión de fracciones.
Son casos en los que el sistema ha generado un dato erróneo, o lo que se suele decir, ha tenido una "Halluciantion", que como sabemos se pueden forzar con Prompts basados en estratégias como la del ataque del gato. De esto se habla mucho en el libro de Hacking IA.
escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord
Si miramos la distribución de los errores que tienen los modelos con este tipo de problemas, la precisión y el redondeo es el mayor foco de confusiones a la hora de resolver los problemas, pero también calculan mal, confunden las fórmulas, hacen asunciones erróneas, o aplican mal las formulas.
Figura 7: Distribución de tipo de errores
Figura 8: Error en el cálculo de probabilidades
Claro, ahora que estamos hablando tanto del Vibe-Coding, hay que tener presente que este tipo de errores pueden influir en bugs de lógica dentro de las aplicaciones generadas, lo que hace que el riesgo de tener bugs ocultos sea grande.

En estos ejemplos, errores a la hora de leer el enunciado del problema, lo que genera que interprete mal los datos del problema y resuelva erróneamente eligiendo datos equivocados.
Figura 10: Errores de lectura de los datos en el Prompt
Y el último, un ejemplo donde el modelo tenía toda la información que necesitaba para resolver el problema, pero aún así se rinde y dice que le falta información. Un estudiante al uso, diría yo.
Figura 11: Error de me faltan datos
Figura 12: Hacking & Pentesting con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)



DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 
















