Un informático en el lado del mal: Cómo resolver los Captchas Cognitivos Visuales y Auditivos de GitHub con Gemini (o cualquier MM-LLM) sin despeinarte

martes, abril 07, 2026

Cómo resolver los Captchas Cognitivos Visuales y Auditivos de GitHub con Gemini (o cualquier MM-LLM) sin despeinarte

Cuando empecé a jugar con los Captchas Cognitivos hace unos años estaba claro que los MM-LLMs iban a merendarte estos retos con una facilidad asombrosa, y esto es lo que ya sucede hoy en día. Este sábado, cuando estaba jugando con el Vibe Coding para Locomotive BASIC 1.0 de AMSTRAD CPC fui a recuperar la contraseña de mi cuenta de experimentos en GitHub, y de repente... me toca un Captcha Cognitivo.

Figura 1: Cómo resolver los Captchas Cognitivos Visuales y Auditivos

de GitHub con Gemini (o cualquier MM-LLM) sin despeinarte

El Captcha Cognitivo es de FunCaptcha, y por supuesto está dentro los atacados y explotados por el Crimeware. En estos servicios basados en generar Malware as as Service, puedes pedir exploits, scripts de ofuscación, de movimiento lateral, de búsqueda de datos sensibles en una post-explotación, o de generación de persistencia, y por supuesto de resolución de Captchas Cognitivos.

Figura 19: Planes empresariales para resolución

de Captchas Cognitivos vía API

Entre estos servicios, cómo no, los negocios de resolución de Captchas Cognitivos as a Service, que están sacando el máximo partido posible al mundo de la Inteligencia Artificial. Así que, si los malos pueden, tú también puedes sacarle partido a la IA para hacer cosas buenas.

Figura 3: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

FunCaptcha utiliza retos Visuales Cogntivios para detectar a los humanos, y aunque al principio eran complejos de automatizar, desde la llegada de MM-LLMs ha sido un juego. Yo he estado jugando con ellos, ya que los utilizan HBO Max, Linkedin, Twitter/X, etcétera, y os he ido dejando artículos para que pudierais ver cómo funcionan:

En este caso, en el Formulario de Recuperación de Contraseñas de GitHub, que puedes probarlo para automatizar tu propia API, puedes ver que aparece el Captcha Cognitivo. Este puede ser visual o auditivo. En el visual, que es este primero, hay que alinear la orientación de dos objetos "extraños"

Figura 4: Captcha Cognitivo de FunCaptcha en GitHub

Para probarlo, subo una imagen inicialmente para ver qué tal analiza los dos objetos y su orientación, con la pregunta más sencilla posible. Nada de complicarse, a ver qué me contesta.

Figura 5: Preguntando si estás mirando hacia el mismo sitio?

Y la respuesta es de lo más elaborada, así que vamos a tener que decirle que se atenga a Sí o No para poder apificar esto sin desperdiciar muchos tokens, que no está la vida como para ir tirando tokens a lo loco por ahí.

Figura 6: Explicación larga para decir que lo puede hacer.

Pues nada, te haces un Agentic AI que recorte las imágenes, y le diga a Gemini que te diga si esos dos objetos están en la misma dirección. Si Sí, pues Submit, si No, pues nada, mover la flecha hacia un la derecha (comienza a la izquierda del todo siempre).

Figura 7: No están en la misma dirección, así que hay que mover la flecha

Cuando estén en la misma dirección, como este otro ejemplo, pues nada, habremos terminado y sólo hay que dar al botón de Submit. Algo que para un Agente IA de hoy en día no es nada difícil de realizar. Es por eso que en el mundo del Crimeware los MM-LLMs son tan importantes.

Figura 8: Cuando están orientados, pues Submit

Pero vamos ahora a la parte Auditiva. Es decir, a resolver el Captcha Cognitivo con los sonidos que nos ofrece el Formulario de Recuperación de Contraseñas de GitHub. Aquí, en este vídeo tenéis el audio completo de cómo funciona este reto de inteligencia auditiva.

Figura 9: Captcha Cogntivio Auditivo de FunCaptcha en GitHub

Usar el audio es algo que ya hemos estado viendo en otros artículos, y comenzamos hace mucho tiempo con ReCaptcha v2 de Google, porque esta es otra línea de investigación que permite conseguir el mismo objetivo por otros medios. A veces más costoso, a veces más fácil.

Hoy en día, con los MM-LLMs, es bastante sencillo, porque sólo he tenido que grabar el audio y subirlo a Gemini para obtener el resultado que deseaba.

Figura 10: Subiendo el audio a Gemini

Y el resultado lo tenemos a la primera, como podéis ver en la siguiente imagen, donde Gemini da la respuesta correcta. Pero como el Formulario de Recuperación de Contraseñas de GitHub está abierto, podéis probarlo vosotros mismos con diferentes imágenes y audios que os de.

Figura 11: Respuesta correcta. Submit.

Resolver los FunCaptcha, cada día es más sencillo, ya que cada vez funcionan mejor los MM-LLMs. En este ejemplo con Gemini se puede ver cómo a la primera resuelve el reto del Formulario de Recuperación de Contraseñas de GitHub.

Figura 12:"Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment"

escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que se han escrito, citado o publicado en este blog sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Reunirse con Chema Alonso

Hacking IA

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

martes, abril 07, 2026

Cómo resolver los Captchas Cognitivos Visuales y Auditivos de GitHub con Gemini (o cualquier MM-LLM) sin despeinarte

No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Hacking & Pentesting con Inteligencia Artificial

Chat Público de "El lado del Mal"

Libro Pentesting con FOCA

Agradecimientos en Tempos

Singularity Hackers

Etiquetas

ChemaBot

Un informático en el lado del mal

Reunirse con Chema Alonso

Hacking IA

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

martes, abril 07, 2026

Cómo resolver los Captchas Cognitivos Visuales y Auditivos de GitHub con Gemini (o cualquier MM-LLM) sin despeinarte

No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Hacking & Pentesting con Inteligencia Artificial

Chat Público de "El lado del Mal"

Libro Pentesting con FOCA

Agradecimientos en Tempos

Singularity Hackers

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection