Un informático en el lado del mal: Anthropic Claude 3.0 Opus y el Reto de Captcha Cognitivo de Twitter/X

miércoles, marzo 13, 2024

Anthropic Claude 3.0 Opus y el Reto de Captcha Cognitivo de Twitter/X

A finales del mes de Febrero os publiqué un artículo en el que intentaba romper el Captcha Cognitivo de Twitter del movimiento del tren utilizando ChatGPT (GPT4), Azure GPT4-Vision, Gemini (Bard) y Gemini (Ultra 10) con un resultado curioso, porque ninguno de ellos llegaba a posicionar correctamente en la posición de salida al tren, lo que hacía que hubiera que corregir su posición.

Figura 1: Claude 3.0 Opus y el Reto de Captcha Cognitivo de Twitter/X

Con la salida de Anthropic Claude 3.0 Opus, mi amigo Julian Isla me propuso probar a ver si era capaz de saltarse el mismo reto. Es decir, a ver cómo se comporta Claude 3.0 Opus enfrente del Captcha Cognitivo del Tren de Twitter.

Figura 2: El Captcha Cognitivo del Puzzle del Tren en Twitter

Según la gráfica que publican en la web de Antropic, Claude 3.0 Opus supera a todos los demás modelos en todo tipo de tareas cognitivas, tal y como os dejo por aquí.

Figura 3: Comparativa de Cloud 3 Opus con el resto de LLMs

Pero no solo en todos esos benchmark, sino también, especialmente, en los que tienen que ver con problemas visuales, como se ve en esta segunda tabla.

Figura 4: Benchmarks de problemas visuales

Y el resultado ha sido curioso, no por nada positivo, sino porque ha vuelto a fallar en el mismo sitio en el que han fallado los modelos anteriores. Es decir, en la ubicación del tren. Al pedirle que resuelva el reto, ha posicionado al tren en la posición C, haciendo que falle en su resolución.

Figura 5: El reto en Claude 3.0 Opus Falla también

Por supuesto, cuando le sitúas en la posición correcta, es capaz de resolverlo muy rápidamente, pero no a la primera, lo que nos ha llamado la atención. Está claro que el reto visual está bien diseñado por los creadores de este Captcha Cognitivo, que está explotando algún efecto visual que afecta a estos modelos de visión artificial.

Figura 6: Le corregimos, y ahora sí lo resuelve

Como curiosidad, seguiremos probando este mismo reto en los siguientes, pues el uso de los Captchas Cognitivos con modelos LLMs Multimodales va a ser algo que va a permitir automatizar muchos procesos de Webscraping, Webscalping, etc... y van a ser muy importantes en el futuro para los equipos del Red Team.

Figura 7: El Red Team de la empresa
de Eduardo Arriols en 0xWord.

Veremos si no llegamos a los Captchas Emocionales antes de lo que pensamos, porque tardo o temprano todos estos Captchas Cognitivos van a ir cayendo uno tras otro.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Hacking IA

Hacking & Pentesting con Inteligencia Artificial

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

miércoles, marzo 13, 2024

Anthropic Claude 3.0 Opus y el Reto de Captcha Cognitivo de Twitter/X

No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Chat Público de "El lado del Mal"

Reunirse con Chema Alonso

Masters Ciberseguridad

Libro Pentesting con FOCA

Agradecimientos en Tempos

Singularity Hackers

Etiquetas

ChemaBot

Un informático en el lado del mal

Hacking IA

Hacking & Pentesting con Inteligencia Artificial

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

miércoles, marzo 13, 2024

Anthropic Claude 3.0 Opus y el Reto de Captcha Cognitivo de Twitter/X

No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Chat Público de "El lado del Mal"

Reunirse con Chema Alonso

Masters Ciberseguridad

Libro Pentesting con FOCA

Agradecimientos en Tempos

Singularity Hackers

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection