miércoles, marzo 13, 2024

Anthropic Claude 3.0 Opus y el Reto de Captcha Cognitivo de Twitter/X

A finales del mes de Febrero os publiqué un artículo en el que intentaba romper el Captcha Cognitivo de Twitter del movimiento del tren utilizando ChatGPT (GPT4), Azure GPT4-Vision, Gemini (Bard) y Gemini (Ultra 10) con un resultado curioso, porque ninguno de ellos llegaba a posicionar correctamente en la posición de salida al tren, lo que hacía que hubiera que corregir su posición.

Figura 1: Claude 3.0 Opus y el Reto de Captcha Cognitivo de Twitter/X

Con la salida de Anthropic Claude 3.0 Opus, mi amigo Julian Isla me propuso probar a ver si era capaz de saltarse el mismo reto. Es decir, a ver cómo se comporta Claude 3.0 Opus enfrente del Captcha Cognitivo del Tren de Twitter.

Figura 2: El Captcha Cognitivo del Puzzle del Tren en Twitter

Según la gráfica que publican en la web de Antropic, Claude 3.0 Opus supera a todos los demás modelos en todo tipo de tareas cognitivas, tal y como os dejo por aquí.

Pero no solo en todos esos benchmark, sino también, especialmente, en los que tienen que ver con problemas visuales, como se ve en esta segunda tabla.

Y el resultado ha sido curioso, no por nada positivo, sino porque ha vuelto a fallar en el mismo sitio en el que han fallado los modelos anteriores. Es decir, en la ubicación del tren. Al pedirle que resuelva el reto, ha posicionado al tren en la posición C, haciendo que falle en su resolución.

Figura 5: El reto en Claude 3.0 Opus Falla también

Por supuesto, cuando le sitúas en la posición correcta, es capaz de resolverlo muy rápidamente, pero no a la primera, lo que nos ha llamado la atención. Está claro que el reto visual está bien diseñado por los creadores de este Captcha Cognitivo, que está explotando algún efecto visual que afecta a estos modelos de visión artificial.

Figura 6: Le corregimos, y ahora sí lo resuelve

Como curiosidad, seguiremos probando este mismo reto en los siguientes, pues el uso de los Captchas Cognitivos con modelos LLMs Multimodales va a ser algo que va a permitir automatizar muchos procesos de Webscraping, Webscalping, etc... y van a ser muy importantes en el futuro para los equipos del Red Team.

Veremos si no llegamos a los Captchas Emocionales antes de lo que pensamos, porque tardo o temprano todos estos Captchas Cognitivos van a ir cayendo uno tras otro.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

10 maneras de sacarle el jugo a tu cuenta de @MyPublicInbox si eres un Perfil Público

Cuando doy una charla a algún amigo, conocido, o a un grupo de personas que quieren conocer MyPublicInbox , siempre se acaban sorprendiendo ...

Entradas populares