Un informático en el lado del mal: FrontierMath: Inteligencia Artificial resolviendo problemas de matemáticas aún no resueltos.

La organización de Epoch AI es un centro de investigación que está dedicado a monitorizar el avance de la Inteligencia Artificial en la ciencia, y en especial, de la matemática, donde tienen un Benchmark para monitorizar el resultado de los modelos LLM de frontera en la resolución de problemas matemáticos.

Figura 1: FrontierMath: Inteligencia Artificial resolviendo

problemas de matemáticas aún no resueltos.

Además del Benchmark FrontierMath, del que hablaré un poco al final de este artículo, tienen una sección donde recopilan problemas de matemáticas que aún no han sido resueltos. Conjeturas aún por descubrir su respuesta, donde actualmente tienen un total de 15 problemas.

Figura 2: FrontierMath

Estos problemas los tienen catalogados por dificultad de resolución, donde los propios matemáticos que los proponen indican el nivel de dificultad, y cuanto creen que los humanos podrían resolverlo. Así, estos son catalogados en niveles de dificultad.

Figura 3: Quince retos no resueltos por humanos

De ellos, de los "Moderadamente Interesantes", donde hay cuatro - ninguno de ellos resueltos por humanos - hay uno de ellos que acaba de ser resuelto por la Inteligencia Artificial. Este reto que ha sido resuelto, el matemático que lo planteo no lo pudo resolver en el año 2019 cuando se le ocurrió.

Figura 4: Retos Moderadamente Interesantes

El enunciado del problema de "Ramsey-Style Problem on Hypergraphs", por si queréis intentarlo vosotros antes de leer la solución, lo tenéis publicado aquí, igual que el resto de los problemas abiertos. Para que te entretengas en tus ratos libres.

Figura 5: "Ramsey-Style Problem on Hypergraphs"

El problema de "Ramsey-Style Problem on Hypergraphs" es el que ha sido resuelto por los modelos de Inteligencia Artificial, en las últimas versiones de los modelos de frontera que tenéis aquí en la tabla, donde GPT-5.4 Pro, GPT-5.4 (xhigh), Gemini 3.1 Pro y Claude Opus 4.6 (max) han sido los únicos capaces de resolver este problema.

Figura 6: Modelos que han resuelto el problema aún no resuelto

Es un paso pequeño, porque se esperaba que este problema, si lo hubieran intentado resolver matemáticos de nivel, lo hubieran podido sacar seguro en unos meses - según dice el matemático que lo planteó -, pero lo cierto es que la IA lo ha resuelto rápidamente, con este Prompt, donde se le describe el problema.

A hypergraph (V, H) is said to contain a partition of size n if there is some D ⊆ V and P ⊆ H such that |D| = n and every member of D is contained in exactly one member of P. Define H(n) to be the largest integer k such that there is a hypergraph (V, H) with |V| = k having no isolated vertices and containing no partitions of size greater than n.

It is known that H(n) ≥ k_n, where k_n is defined recursively by the formula k_1 = 1 and k_n = ⌊n/2⌋ + k_⌊n/2⌋ + k_⌊(n+1)/2⌋.

Your task is to improve this lower bound by a constant factor, i.e. show that H(n) ≥ c*k_n for some c > 1. It is acceptable if this improvement does not work for small n, but it must already be "in effect" for n=15. You must demonstrate this improvement by providing an algorithm that takes n as input and produces a hypergraph witnessing H(n) ≥ c * k_n.

Please provide an algorithm that takes n as input and outputs the witness hypergraph as a string where vertices are labeled, 1, ..., |V|, and edges are denoted with curly braces. Example: {1,2,3},{2,4},{3,4,5},{1,5}

Solution format:
* Write a Python script defining a function `solution(n: int) -> str`.
* Do not include any code at the file level. You may include a `main` block for testing, but it will not be executed by the verifier.
* For n ≤ 100, the algorithm must complete within 10 minutes when run on a typical laptop.

Y con este Prompt, el modelo ha resuelto el problema y ha publicado un artículo donde ofrece la explicación matemática y la demostración de por qué está resuelto, como podéis ver aquí. Perdonadme que no me meta en la parte matemática, que ya me parece demasiado para un artículo que estoy escribiendo en domingo.

Figura 7: El paper que resuelve la conjetura que estaba sin resolver aún

Lo cierto es que, además de esta competición, el Benchmark FrontierMath está retando a los modelos de frontera con problemas con cuatro niveles de dificultad, donde miden la exactitud en la resolución. Estos problemas no son nada fáciles, especialmente el nivel Tier-4 donde hay 50 problemas muy complejos.

Figura 8: El Tier 4 tiene 50 problemas extremadamente difíciles

Y la clasificación en este nivel, de los diferentes modelos, muestra que aún queda espacio de mejora, pero al mismo tiempo muestran lo rápido que están mejorando, versión tras versión, estos modelos, buscando superar a todos los matemáticos de la tierra en un futuro que no parece demasiado lejano.

Figura 9: Clasificación en el Tier-4 de los problemas

Recordad que estos modelos sufren de problemas aún sin resolver, como vimos en el Benchmark de la ORCA donde los decimales, la aplicación de la fórmula correcta, o la transformación de medidas sigue siendo un reto en determinadas situaciones.

Figura 10: Evolución de los modelos y resultados de las pruebas de Tier-4

Por supuesto, para el mundo del hacking y el pentesting donde se utiliza ya IA, que esta es otra buena disciplina donde hay que resolver problemas, la mejora continua de estos modelos hace que caba vez sean más eficientes a la hora de realizar una penetración en un sistema. Así que hay que seguir apostando por ellos.

Figura 11: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que se han escrito, citado o publicado en este blog sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Un informático en el lado del mal

lunes, marzo 30, 2026

FrontierMath: Inteligencia Artificial resolviendo problemas de matemáticas aún no resueltos.

No hay comentarios:

Publicar un comentario