Mostrando entradas con la etiqueta Captchas. Mostrar todas las entradas
Mostrando entradas con la etiqueta Captchas. Mostrar todas las entradas

domingo, abril 13, 2025

Inteligencia Artificial y el negocio de resolver "Capthas Cognitivos" para el Cibercrimen.

Vale, no sólo cibercrimen, también lo hacen para aquellas empresas que hacen WebScrapping, WebScalping, o que directamente quieren indexar contenido... (¿cómo lo harán los spiders de los buscadores hoy en día?). En el mundo de la ciberseguridad también se usan las técnicas de WebScrapping muchas veces, para hacer investigaciones usando técnicas OSINT: Open Source INTelligence, así que el Captcha es un viejo conocido.

Figura 1: Inteligencia Artificial y el negocio de resolver
"Capthas Cognitivos" para el Cibercrimen.

Recientemente, el equipo de Sentinel Labs ha publicado un análisis de la infraestructura y el funcionamiento del Bot Akira, que es un framework que se utiliza para campañas de distribución masiva por medio de redes, spam e-mail, comentarios, y redes sociales, incluidos canales de Telegram. El análisis completo del bot lo tenéis en su web, pero hoy quería centrarme en el uso que hace la Inteligencia Artificial para su funcionamiento.
Si leéis el artículo del análisis veréis que el bot lleva hardcoeadas APIs Keys de OpenAI para hacer uso de las funciones de GPT para construir los mensajes de Spam, los comentarios, etcétera. Esto no es algo nuevo, y ya vimos varios artículos sobre cómo utiliza el cibercrimen las herramientas de GenAI, así como el mundo de la desinformación y la propaganda.
Pero quería pararme en la otra parte, en la parte de los Captchas, donde, para hacer sus funciones de forma masiva, distribuida, y automatizada, debe lidiar con la resolución de Captchas, y ahí utiliza varias plataformas para resolver esto. Estas son APIs comerciales de empresas que te permiten resolver de manera automatizada diferentes modelos de Captchas.

Figura 4: Tipos de Captcha Solver Ofrecidos por una empresa

Estas empresas tienen un negocio muy interesante, ya que si lo pueden automatizar lo automatizan, pero en sus orígenes hay empresas que lo hacían - y lo siguen haciendo para algunos Captchas - de manera manual, aunque ya menos. 

Figura 5: Precios para resolver diferentes versiones de reCaptcha

Si vamos a ver las empresas, vemos que utilizan, vemos que los costes son bastante bajos para Captchas sencillos que se pueden automatizar con modelos en IA en local, como son las diferentes versiones de ReCaptchaV2, ReCaptchaV2 Enterprise, ReCaptchaV3 y ReCaptchaMobile.
Hay que recordar que ReCaptchaV2 se puede resolver con Cognitive Services de reconocimiento de audio - como hicimos nosotros en el año 2017 -, o usando Cognitive Services de reconocimiento de imágenes, algo que está bastante automatizado como podéis ver en este vídeo, donde además resuelven también hCaptcha.

Figura 7: Resolviendo ReCaptcha & hCaptcha

También, según el informe, podía saltarse otros tipos de Captcha, como hCaptcha, visto en el vídeo anterior, pero también FunCaptcha, uno de los que desde que entramos en el mundo de los Multi-Modal LLMs he estado jugando con ellos. 

Figura 8: Doce Retos diferentes de FunCaptcha

FunCaptcha utiliza retos visuales cogntivios para detectar a los humanos, y aunque al principio eran complejos de automatizar, desde la llegada de MM-LLMs ha sido un juego. Yo he estado jugando con ellos, ya que los utilizan HBO Max, Linkedin, Twitter/X, etcétera, y os he ido dejando artículos para que pudierais ver cómo funcionan:
Resolver los FunCaptcha, cada día es más sencillo, ya que cada vez funcionan mejor los MM-LLMs. En este ejemplo con ChatGPT-4o se puede ver cómo a la primera resuelve el reto de los datos de la imagen anterior.

Figura 9: Resolución del FunCaptcha de los dados con ChatGPT

Pero si lo que queremos es automatizar esto, pues no queremos tanta floritura en la respuesta, que los tiempos de latencia son cruciales, así que le pedimos el número del cuadrante que hay que pulsar y listo. En este caso con el reto de la galaxia en espiral.

Figura 10: Resolución del FunCaptcha de la galaxia en espiral con ChatGPT

Al final son retos de reconocimiento visual, razonamiento, etcétera, que cada vez están más superados por esta industria. Sin embargo, se puede ver diferentes precios para este tipo de retos. Aquí, esta empresa está cobrando entre 2.99USD y 50 USD por resolver 1.000 FunCaptchas.

Figura 11: Coste de resolución de 1.000 FunCapchas

Esto puede significar que están pagando un API muy grande, o que lo están resolviendo manualmente aún, porque te puedes encontrar "empresas" como esta China que por entre 5  15 Yuanes te los resuelven igualmente. Eso puede ser que estén usando una infraestructura de botnet para resolverla, o incluso APIs robadas de servicios de GenAI, o... vete tú a saber, porque el precio es brutal. Es algo así como entre 0.7 y 2 USD.

Figura 12: Coste de resolución de 1.000 FunCaptcha.

Y la infraestructura que tienen soporta resoluciones de millones de Captchas Cognitivos al mes, como podemos ver en los planes comerciales para todo tipo de tamaño de compañía, donde por menos de 100 USD tienes un servicio de más de 6M de Captchas al mes, de imágenes o audios, para que lo puedas automatizar a lo grande. Y si necesitas más, pues doblas la cuentas.

Figura 13: Planes empresariales para resolución
de Captchas Cognitivos vía API

Además de estos Captchas Cognitivos, también tienen estas empresas soluciones para CloudFlare TurnSite y AWS Captcha. TurnSite es el famoso Captcha de CloudFlare que tanto bien ha hecho, pero estas empresas ya empiezan a ponerlo en sus capacidades, y AkiraBot hacía uso de una de estas empresas para saltárselo.

Figura 14: Planes con TurnSite y AWS Captcha

Es por eso que la empresa CloudFlare ha innovado y creado AI Labyrnth para cuando un sitio es atacado por uno de estos servicios, quede atrapado en un HoneyPot que le genere con GenAI información "useless" de lo que iba buscando.

Además, si os fijáis, el AWS Captcha, ya lo tienen en camino. De momento la oferta te permite reconocerlo, lo que te ayuda a reenviarlo a un equipo de personas humanas que lo resuelvan, pero "están trabajando" en tenerlo listo. Es la innovación en el otro lado.

Figura 16: Puzzles de AWS Captcha

Al final, la disrupción de la aceleración en el mundo de la Inteligencia Artificial se va a ver en todas partes, así que vemos como el juego del gato y el ratón entre buenos y malos - o malos y buenos -, sigue siendo una de las líneas de investigación más interesantes en Ciberseguridad.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


viernes, marzo 28, 2025

Tu WebSite con Smart Honeypots contra el WebScrapping usando AI Labyrinth de Cloudflare

En el mundo digital actual los creadores y propietarios de sitios web se están enfrentando a un adversario particularmente voraz: los rastreadores web de Inteligencia Artificial. Estos bots, diseñados para recopilar masivamente datos que alimentarán los modelos de lenguaje de las grandes empresas de IA, están devorando datos de Internet a un ritmo alarmante. Según datos recientes de Cloudflare, estos rastreadores generan más de 50.000 millones de solicitudes diarias a su red, representando casi el 1% de todo el tráfico web que procesan. 
Estos nuevos rastreadores de IA tienen una tendencia a ignorar las reglas de etiqueta digital establecidas, el archivo robots.txt, que durante décadas ha servido como un cartel de "no pasar" respetado por los rastreadores web tradicionales, además de otras señales de opt-out, como metatags específicos que indican la prohibición de uso para entrenamiento de IA.


En este contexto, no es simplemente un malentendido técnico, sino una decisión consciente de ignorar los deseos expresos de los creadores de contenido. Esta situación ha llevado a numerosas demandas legales contra empresas de IA por parte de creadores de contenido, desde periódicos hasta artistas visuales, alegando violaciones de derechos de autor.


Además, para los administradores de sitios Web, los procesos de Webscraping no autorizados aumentan los costos de hosting, ralentiza el rendimiento del sitio y, quizás lo más importante, permite que otras entidades se apropien de contenido original sin permiso para entrenar sus modelos comerciales de IA.

AI Labyrinth  

En este contexto, Cloudflare ha lanzado este mes de marzo una solución que pretende paliar estos daños: AI Labyrinth. Esta herramienta no bloquea a los rastreadores no autorizados (lo que simplemente les alertaría de que han sido detectados), sino que los invita a adentrarse en un laberinto interminable de contenido generado por IA—una trampa digital donde los bots pueden deambular eternamente, consumiendo sus recursos sin obtener nada de valor a cambio.

Métodos tradicionales de protección y sus limitaciones

Antes de soluciones como AI Labyrinth, los sitios web han recurrido a métodos tradicionales para combatir el webscraping no autorizado, pero estos resultan ineficaces contra rastreadores de IA avanzados. El bloqueo de direcciones IP es una estrategia limitada, ya que los operadores de scraping pueden rotar direcciones o utilizar redes de proxies, lo que vuelve el proceso en una batalla interminable. 

Además, existe el riesgo de bloquear usuarios legítimos que comparten rangos de direcciones IP con los rastreadores. De manera similar, los CAPTCHAs, diseñados para diferenciar humanos de bots, generan fricción en la experiencia del usuario y han perdido efectividad con el avance de la IA, que ahora puede resolverlos con facilidad, como hemos visto en todos estos ejemplos:

Otras estrategias como la limitación de tasa de consumo buscan restringir el número de solicitudes por dirección IP, pero los rastreadores pueden ajustar su velocidad para evadir los umbrales de detección. La ofuscación de contenido mediante JavaScript o formatos difíciles de extraer, aunque parece una solución viable, afecta negativamente el SEO y la accesibilidad. 

Peor aún, los rastreadores modernos pueden ejecutar JavaScript y procesar formatos complejos, superando estas barreras con el tiempo. En última instancia, el problema de estos enfoques es que alertan a los operadores de webscraping de que han sido detectados, lo que los lleva a modificar sus tácticas en un ciclo continuo de evasión y ajuste.

Este enfrentamiento perpetuo consume recursos y beneficia a las grandes empresas de IA con capacidad para sortear estas defensas. Por ello lo que hace Cloudflare plantea un enfoque diferente: en lugar de bloquear el acceso y advertir al adversario, lo desvía de manera imperceptible hacia rutas que parecen productivas pero resultan inútiles para sus propósitos.

Implementación técnica

El primer desafío técnico que enfrentó Cloudflare fue generar contenido convincente a escala, ya que producir contenido falso pero plausible en tiempo real para cada solicitud sospechosa podía consumir excesivos recursos y ralentizar la experiencia general; para abordar esto, Cloudflare emplea su servicio Workers AI con un modelo de código abierto que pre-genera un corpus diverso de contenido HTML sobre temas variados, como ciencias (biología, física o matemáticas), utilizando un enfoque donde primero se crean temas diversos y luego contenido específico y coherente para cada uno, logrando resultados factuales y técnicamente correctos, aunque irrelevantes para el sitio web protegido, en lugar de depender de una generación puramente aleatoria.

Posteriormente sanitizan el contenido pre-generado para eliminar vulnerabilidades XSS, lo almacena en R2 para servirlo rápidamente sin cargar los servidores de origen y lo integra en sitios protegidos mediante un proceso HTML personalizado que oculta enlaces al laberinto con CSS, usando metadirectivas para evitar indexación por buscadores y proteger el SEO; además, distingue usuarios legítimos de rastreadores sospechosos analizando patrones de navegación, velocidad, User-Agents y comportamientos a nivel de red, redirigiendo a estos últimos al laberinto antes de que lleguen al servidor, aliviando así la infraestructura del cliente.

 
Para los administradores de sitios web, usar AI Labyrinth es muy sencillo, activando una opción en el panel de control de Cloudflare, en la parte de gestión de bots. Por detrás, cuando un rastreador cae en el laberinto, se recogen datos sobre cómo actúa, los usa para entrenar sus modelos de aprendizaje automático y así afinar la detección de bots maliciosos, de modo que cada sitio protegido ayuda a mejorar la seguridad de los demás.


La arquitectura distribuida de Cloudflare permite que esta solución escale globalmente sin degradación del rendimiento. El contenido del laberinto se distribuye a través de su red global de centros de datos, garantizando tiempos de respuesta rápidos independientemente de la ubicación geográfica del rastreador. Esta capacidad de respuesta global es crucial para mantener la ilusión de un sitio web real, evitando que los rastreadores más sofisticados detecten que han sido redirigidos a un entorno controlado.

Conclusiones

Esta innovadora solución de Cloudflare sacude la dinámica entre creadores de contenido y empresas de IA que recolectan datos masivamente sin permiso. Al usar contenido generado por IA para confundir rastreadores, cuestiona la noción de que internet es un recurso gratuito para tomar datos a voluntad, y sus efectos podrían sentirse en varios frentes.

Obviamente las empresas de IA no se quedarán quietas, y probablemente desarrollen formas de detectar y evitar estos trucos, iniciando una especie de carrera tecnológica. Esto no es nuevo en ciberseguridad: estas competencias suelen traer avances para ambos lados, con ideas que luego se usan en otros campos.

Un saludo,

Autor: Javier del Pino, Investigador en Ideas Locas

martes, febrero 11, 2025

Captcha Cognitivo de Twitter / X de Sentar Personas Correctamente: Probando con ChatGPT & Gemini

Ayer, ayudando a uno de los amigos a recuperar el acceso a su cuenta de Twitter/X, me volvió a salir un Captcha Cognitivo de esos que me gusta probar con los motores de MM-LLMs para ver si tienen sentido o no, y para ver si es fácil para ellos saltárselo.

Figura 1: Captcha Cognitivo de Twitter/X de Sentar Personas Correctamente.
Probando con ChatGPT & Gemini

Este no es el primero que pruebo, así que si quieres leer sobre este tema, te dejo las referencias a las diferentes pruebas que he ido realizando en estos artículos, que si te gusta el tema seguro que te resultan interesantes.
En este caso el Captcha Cognitivo trata de Sentar Personas Correctamente, dadas unas coordenadas basadas en una letra y un símbolo, tal y como podéis ver en la imagen siguiente.

Figura 2: Captcha Cognitivo de Sentar Personas Correctamente

En este caso hay una flecha a la izquierda y otra a la derecha, pero no siguen un orden pre-establecido y simplemente mueve aleatoriamente, o pseudo-aleatoriamente, a la persona a otro asiento, así que para nosotros se trata de un algoritmo bastante sencillo.

Figura 3: Captcha Cognitivo resuelto correctamente

El proceso es preguntar: "¿Está la persona sentada en el sitio correcto o no?" Si la respuesta es , entonces enviar la solución. Si la respuesta es No, entonces dar a la flecha que se quiera para mover a la persona a otro asiento.

Probando con ChatGPT

Como ChatGPT es un MM-LLM, fui a probar la versión gratuita en la web con GPT-4, para ver si lo resolvía bien. No necesitaba meterme en Deep Research para hacer esta prueba, ya que me imaginaba los resultados.

Figura 4: ChatGPT acierta diciendo que está mal sentado

En el ejemplo anterior acierta al decir que no está sentado en la posición correcta, y si le enviamos ahora una prueba en la que está correctamente sentado el pasajero, vemos que también da con la respuesta correcta.

Figura 5: ChatGPT acierta diciendo que está bien sentado

Sin embargo, no acierta todos, y un porcentaje pequeño de ellos tiene alguna alucinación, como podemos ver en este caso concreto donde cambiada la persona y los símbolos, ChatGPT tiene un fallo y dice que está correctamente sentado, cuando no lo está.

Figura 6: ChatGPT falla diciendo que está bien sentado

Pero en cualquier caso, utilizar una API con un MM-LLM como GPT-4 serías más que suficiente para acertar, si no en todos los casos, en la mayoría. Es decir, como los seres humanos que no tenemos perfección.

Google Gemini 

Probando exactamente lo mismo con Google Gemini, veremos que tenemos resultados más o menos similares. En este caso, os dejo por aquí otros ejemplos del Captcha Cognitivo por si queréis probarlos vosotros con otros modelos, que hay distintas variaciones.

Figura 7: Variación del Captcha Cognitivo con inclinación a la derecha
y pasajero mal sentado.

Como se puede observar, también cambian las letras y los símbolos, así que necesitamos un sistema de Visión Artificial correctamente entrenado para reconocer las diferentes isometrías, símbolos y caracteres, y diseñar visualmente la matriz sobre los asientos.

Figura 8: Variación del Captcha Cognitivo con inclinación a la derecha
y pasajero correctamente sentado.

Ahora probamos con Google Gemini de igual manera, y con el mismo prompt que con ChatGPT, y podéis ver que el resultado es exactamente el mismo.

Figura 9: Gemini acierta. El pasajero no está sentado correctamente.

Y ahora le damos un ejemplo donde el pasajero sí que está sentado en el asiento correcto, y como podéis ver Google Gemini también acierta. Así que también podemos utilizar este MM-LLM para automatizar esta resolución de Captchas Cognitivos.

Figura 10: Gemini acierta. El pasajero no está sentado correctamente.

El resultado anterior es correcto, pero en el ejemplo siguiente tiene una alucinación, al igual que le sucedía a ChatGPT. Es decir, no es perfecto, pero tampoco lo es el sistema cognitivo de los seres humanos. Sin embargo, es más que funcional.

Figura 11: Google Gemini falla diciendo que está bien sentado y no lo está.

En cualquier caso, cada vez es más sencillo para los nuevos modelos resolver estos Captchas Cognitivos, y dentro de poco vamos a ver casos al contrario, donde solo los modelos de IA van a ser capaces de resolver estos modelos y será... "I am not a Human" en lugar de "I am not a Robot".

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


martes, octubre 08, 2024

LinkedIN + ChatGPT: El Captcha Cognitivo del Objeto Descolocado

Hace poco me salió en LinkedIN un Captcha Cognitivo de capacidad visual, donde el objetivo era reconocer qué objeto está descolocado. Lo hice manualmente, a ver si es que tenía algún truco, y no lo capturé. Pero me pareció tan sencillo para los Modelos LLM Multimdales, que le pedí a  Fran Ramírez que me ayudara a buscar el Captcha otra vez. Y como era de espera, cuando lo probamos con los motores de GenAI no dio ninguna guerra. Así que aprovecho hoy para contároslo.

Figura 1: LinkedIN + ChatGPT. El Captcha Cognitivo
del Objeto Descolocado

Pero antes de comenzar con esta prueba, os dejo aquí las referencias a todas las pruebas con Captchas Cognitivos que he ido recapitulando durante estos últimos meses, por si os gusta este mundillo.
En este caso, el Captcha Cognitivo es de agudeza visual o de resolución de puzzles gráficos, así que necesitamos servicios de Artificial Vision en el modelo de GenAI que vayamos a usar. Este es el Captcha Cognitivo que me tocó en Linkedin.

Figura 2: Captcha Cognitivo de LinkedIN
para evitar ataques automáticos.
Hay que elegir el rinoceronte correcto.


Al final, este tipo de barreras evitan el uso de herramientas de pentesting automático en ejercicios de Red Team, y saber cómo saltarse estos bloqueos de Captcha Cognitivo usando Inteligencia Artificial es siempre una buena práctica, sobre todo, si los ejercicios de Red Team van a ser parte de tu trabajo.
Como vais a ver, este Captcha Cognitivo no es ningún reto para ninguno de los modelos más avanzados hoy en día. En el primer intento con ChatGPT4-o y sin necesidad de hacer Prompt Enginering más allá de "resuélvelo", tenemos la respuesta correcta.

Figura 4: Probando con ChatGPT4-o.
A la primera resuelto.

Buscando algún puzzle más del famoso rinoceronte de Linkedin, es fácil localizar más, que tampoco son muy diferentes. Son las seis mismas imágenes pero cambiadas de lugar. No está demasiado elaborado.

Figura 5: Otra instancia del mismo puzzle.

Y lo mismo, basta con enviárselo a ChatGPT4-o y preguntarle lo mismo, que nos diga cuál está en el orden correcto. Y como podéis ver, a la primera lo resuelve otra vez, así que la automatización de este Captcha Cognitivo no es ningún reto para la GenAI.

Figura 6: Captcha Cognitivo de LinkedIN resuelto en cero coma.

La Inteligencia Artificial está produciendo una disrupción en todas las industrias profesionales, y en el caso de la Ciberseguridad, el Hacking, el Pentesting, su impacto es brutal. Los que seguís el lado del mal, mis conferencias o simplemente la actualidad tecnológica, ya sabéis lo importante de la Inteligencia Artificial en la Ciberseguridad, tanto como la utilizan los atacantes como los equipos Blue TeamRed Team o Purple Team en las empresas. 

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


miércoles, septiembre 04, 2024

El Captcha Cognitivo de HBO max de reconocimiento de sonidos con Machine Learning & GPT4-o

Hace un tiempo que tenía pendiente contaros un caso con el que he estado jugado un rato con mis compañeros Julián Isla, y Fran Ramírez y que tiene que ver con un Captcha Cognitivo de reconocer sonidos. Y claro, era demasiado jugoso para no acabar de probarlo con los motores de GenAI. Así que aprovecho hoy para contároslo.

Figura 1: El Captcha Cognitivo de HBO max de reconocimiento
de sonidos con Machine Learning &  GPT4-o

Antes de comenzar con esta prueba, os dejo aquí las referencias a todas las pruebas con Captchas Cognitivos que he ido recapitulando durante estos últimos meses, por si os gusta este mundillo.
En este caso, el Captcha Cognitivo es auditivo para las personas que tengan alguna dificultad con la visión para resolver los clásicos Captchas Cogntivos de agudeza visual o de resolución de puzzles gráficos. En este caso, es de HBO max

Figura 2: Captcha Cognitivo de HBO max para proteger tu cuenta

Si os fijáis en la imagen anterior que os publiqué en el artículo de "Captcha Cognitivo de la mano y la plancha en HBO max" se puede ver como está el "Audio Challenge". Donde lo que te hacen es pedir que reconozcas un tipo de sonido, así que nos pusimos a jugar con ello para ver si éramos capaces de resolverlo al estilo de cómo nos saltamos el ReCaptchav2 de Google con Cognitive Services para reconocer los caracteres usando el "Audio Challenge" de accesibilidad.
Al final, este tipo de barreras evitan el uso de herramientas de pentesting automático en ejercicios de Red Team, y saber cómo saltarse estos bloqueos de Captcha Cognitivo usando Inteligencia Artificial es siempre una buena práctica. El ejemplo que tenéis aquí es el vídeo que yo grabé del Audio Challenge que me tocó con HBO max el mismo día que tenía que resolver el de la plancha y los dedos. Así que podías elegir cualquiera de los dos.

Figura 4: El Audio Challenge de HBO max

La primera idea fue hacer un procesado manual por nuestra parte, y cortar los sonidos de las tres opciones haciendo un procesado del sonido, reconociendo con un Cognitive Service los sonidos de "Option 1", "Option 2" y "Option 3", para luego hacer una descripción de los audios.

Figura 5: Cortando las opciones en ficheros de audio

Lo siguiente fue utilizar un clasificador que nos permitiera describir los audios, así que probamos YAMNET que tiene un descriptor de sonidos entrenado con un dataset de 2.1 Millones de sonidos para poder describir los sonidos.
Con esta aproximación nos parecía una solución perfecta basada en un modelo de Machine Learning que ha aprendido a reconocer sonidos, así que iba a ser sencillo resolverlo, así que nada, lanzamos un Python con el fichero de audio que sabíamos que era del sonido de gatos.

Figura 7: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

El resultado lo tenéis en esta captura, donde se puede ver cómo describe YAMNet el audio donde salen maullando los gatos.

Figura 8: Resultado de YAMNet

El resultado, aunque prometedor, no nos resolvía el problema de manera fácil y rápida para automatizarlo, así que teníamos que buscar otra alternativa que decidiera si con esa salida sería posible que fuera el maullido de un gato o no.

ChatGPT4-o

Estuvimos probando diferentes opciones, pero al final, nos encamino a lo más sencillo. Es decir, nos estuvimos complicando cuando podía ser más sencillo. En esta captura corte el vídeo de la Figura 4 y le pregunté a ChatGPT si le parecía un gato o no, y respondió que sí.

Figura 9: "Si tuviera que apostar, diría que es un gato"

El juego está en que todos los sonidos podrían ser un gato - en circunstancias curiosas - pero se trataba de que eligiera solo uno de ellos, así que le hicimos el prompt adecuado. Al final, todos estos "Audio Challenge" llevan tres opciones y un. texto descriptivo del reto que se puede leer con IA fácilmente, así que bastaba con describirle bien el proceso.

Figura 10: "He revisado manualmente el audio"

Y lo hace perfectamente. Dice que el sonido que más se asemeja a maullidos de gatos es la Opción 2. Lo curioso es que hace el proceso completo. Extrae el audio del vídeo, busca los segmentos por las opciones y el número y luego analiza "manualmente" cada segmento para ver cuál se parece más al de los gatos, así que hace un proceso completo.

Reflexión final

Hemos probado mucho con este Captcha Cognitivo con diferentes modelos LLM Multimodales, y los resultados han sido dispares. Desde no puedo analizarlo hasta alucinaciones varias. En el caso de GPT4o vimos que analizaba el audio con herramientas de Machine Learning, y en este caso extrae la pista de audio - procesa el vídeo -, corta el audio en segmentos, analiza los ruidos con el modelo de ML, y da una predicción. Lo que deja claro que en nada de tiempo los Captchas Cognitivos van a tener que evolucionar a algo que no puedan hacer estas herramientas de GenAI, porque se los van a saltar con extrema facilidad.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares