martes, abril 07, 2026

Cómo resolver los Captchas Cognitivos Visuales y Auditivos de GitHub con Gemini (o cualquier MM-LLM) sin despeinarte

Cuando empecé a jugar con los Captchas Cognitivos hace unos años estaba claro que los MM-LLMs iban a merendarte estos retos con una facilidad asombrosa, y esto es lo que ya sucede hoy en día. Este sábado, cuando estaba jugando con el Vibe Coding para Locomotive BASIC 1.0 de AMSTRAD CPC fui a recuperar la contraseña de mi cuenta de experimentos en GitHub, y de repente... me toca un Captcha Cognitivo.

Figura 1: Cómo resolver los Captchas Cognitivos Visuales Auditivos
de GitHub con Gemini (o cualquier MM-LLM) sin despeinarte

El Captcha Cognitivo es de FunCaptcha, y por supuesto está dentro los atacados y explotados por el Crimeware. En estos servicios basados en generar Malware as as Service, puedes pedir exploitsscripts de ofuscación, de movimiento lateral, de búsqueda de datos sensibles en una post-explotación, o de generación de persistencia, y por supuesto de resolución de Captchas Cognitivos.

Entre estos servicios, cómo no, los negocios de resolución de Captchas Cognitivos as a Service, que están sacando el máximo partido posible al mundo de la Inteligencia Artificial. Así que, si los malos pueden, tú también puedes sacarle partido a la IA para hacer cosas buenas.
FunCaptcha utiliza retos Visuales Cogntivios para detectar a los humanos, y aunque al principio eran complejos de automatizar, desde la llegada de MM-LLMs ha sido un juego. Yo he estado jugando con ellos, ya que los utilizan HBO MaxLinkedinTwitter/X, etcétera, y os he ido dejando artículos para que pudierais ver cómo funcionan:
En este caso, en el Formulario de Recuperación de Contraseñas de GitHub, que puedes probarlo para automatizar tu propia API, puedes ver que aparece el Captcha Cognitivo. Este puede ser visual o auditivo. En el visual, que es este primero, hay que alinear la orientación de dos objetos "extraños"

Figura 4: Captcha Cognitivo de FunCaptcha en GitHub


Para probarlo, subo una imagen inicialmente para ver qué tal analiza los dos objetos y su orientación, con la pregunta más sencilla posible. Nada de complicarse, a ver qué me contesta.

Figura 5: Preguntando si estás mirando hacia el mismo sitio?

Y la respuesta es de lo más elaborada, así que vamos a tener que decirle que se atenga a o No para poder apificar esto sin desperdiciar muchos tokens, que no está la vida como para ir tirando tokens a lo loco por ahí.

Figura 6: Explicación larga para decir que lo puede hacer.

Pues nada, te haces un Agentic AI que recorte las imágenes, y le diga a Gemini que te diga si esos dos objetos están en la misma dirección. Si , pues Submit, si No, pues nada, mover la flecha hacia un la derecha (comienza a la izquierda del todo siempre).

Figura 7: No están en la misma dirección, así que hay que mover la flecha

Cuando estén en la misma dirección, como este otro ejemplo, pues nada, habremos terminado y sólo hay que dar al botón de Submit. Algo que para un Agente IA de hoy en día no es nada difícil de realizar. Es por eso que en el mundo del Crimeware los MM-LLMs son tan importantes.

Figura 8: Cuando están orientados, pues Submit

Pero vamos ahora a la parte Auditiva. Es decir, a resolver el Captcha Cognitivo con los sonidos que nos ofrece el Formulario de Recuperación de Contraseñas de GitHub. Aquí, en este vídeo tenéis el audio completo de cómo funciona este reto de inteligencia auditiva.

Figura 9: Captcha Cogntivio Auditivo de FunCaptcha en GitHub

Usar el audio es algo que ya hemos estado viendo en otros artículos, y comenzamos hace mucho tiempo con ReCaptcha v2 de Google, porque esta es otra línea de investigación que permite conseguir el mismo objetivo por otros medios. A veces más costoso, a veces más fácil.
Hoy en día, con los MM-LLMs, es bastante sencillo, porque sólo he tenido que grabar el audio y subirlo a Gemini para obtener el resultado que deseaba.

Figura 10: Subiendo el audio a Gemini

Y el resultado lo tenemos a la primera, como podéis ver en la siguiente imagen, donde Gemini da la respuesta correcta. Pero como el Formulario de Recuperación de Contraseñas de GitHub está abierto, podéis probarlo vosotros mismos con diferentes imágenes y audios que os de.

Figura 11: Respuesta correcta. Submit.

Resolver los FunCaptcha, cada día es más sencillo, ya que cada vez funcionan mejor los MM-LLMs. En este ejemplo con Gemini se puede ver cómo a la primera resuelve el reto del Formulario de Recuperación de Contraseñas de GitHub.

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que se han  escrito, citado o publicado en este blog sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Pocas veces me ha hecho tanta ilusión que saliera un nuevo libro en 0xWord como con este libro de " Hacking IA: Jailbreak, Prompt Inje...

Entradas populares