Mostrando entradas con la etiqueta BlackSEO. Mostrar todas las entradas
Mostrando entradas con la etiqueta BlackSEO. Mostrar todas las entradas

miércoles, julio 09, 2025

GenAI Search Engine Optimization (GenAI SEO) con LLMs TXT

Desde hace muchos años configuramos en las páginas webs el famoso archivo ROBOTs.txt, que le dice a los buscadores qué queremos que se rastree y qué no queremos que se rastree. Y a los hackers qué cosas hay por ahí escondidas en esa web. Esto se extendió a una versión más detallada donde se le da información a los buscadores sobre todas las URLs del sitio que deben ser rastreadas y analizadas correctamente, y apareció el fichero sitemap.xml, que hoy se usa de manera masiva en casi todas las webs que quieren tener presencia en los buscadores. Si quieres saber más sobre indexación, he hablado mucho durante años, que hasta Gmail tuvo problemas con esto, pero el post de hoy va de otro fichero que nada tiene que ver con esto.
Por el camino, ha habido otros ficheros TXT bastante curiosos, como el de HUMANS.txt que se propuso hace tiempo, y el que yo propuse para que los hackers supieran cómo iban a ser tratados cuando se buscaban o reportaban un bug, mi querido HACKERS.TXT. Esta misma idea luego se convirtió en una propuesta de formato estandarizado en el IETF llamada SECURITY.TXT. Pues con esa misma idea, pero pensando en hacer fácil la indexación de contenido para los LLMs, surgió LLMs.TXT
El formato es muy sencillo, y está definido por niveles. Se especifican las secciones de la web con una estructura por niveles, marcada por # o ##, se añaden descripciones, y luego se especifican las diferentes URLs de navegación de contenido, con una descripción opcional en ellas.
Lo que sí que es valioso para enriquecer el entendimiento de los enlaces, es especificar para cada uno de ellos la descripción en un formato sencillo como

#Datos de la web donde está el fichero LLMs.txt

> Resumen de la sección completa.
- Información sobre cosas que se pueden encontrar en esta sección
- Detalles de lo que hay en esta sección.
- Descripción de cosas importantes a saber.

## Sección 1 de la web

- [Título de la pagina a visitar] (URL de la pagina): Descripción de lo que hay allí.
- [Título de la pagina a visitar] (URL de la pagina): Descripción de lo que hay allí.
- [Título de la pagina a visitar] (URL de la pagina): Descripción de lo que hay allí.
- [Título de la pagina a visitar] (URL de la pagina): Descripción de lo que hay allí.
- [Título de la pagina a visitar] (URL de la pagina): Descripción de lo que hay allí.

Con una estructura similar a esa, puedes crear el fichero LLMs.TXT que ahora de forma automática te lo crean muchos gestores de páginas web, pero si aún no lo tienes en tu web y quieres tener un posicionamiento en los GenAI Search Engines, es importante que lo hagas correctamente.
Si miramos los datos, el coste de un Refer por número de Crawls es altísimo, y es un dato que si quieres optimizar para reducir costes de tu infraestructura, cualquier mejora que hagas con el fichero LLMs.TXT te vendrá bien.

Al final, hay que tener en cuenta que para conseguirse un solo HTTP-Referer de los resultados de un GenAI Search Engine se tiene que dar un montón de pasos. Primero hay que tener en cuenta que el GenAI Search Engine puede tener la respuesta sin necesidad de buscar. Y después, si decide que hay que buscar en la web por el tipo de Prompt el flujo es muy largo, como se ve en la imagen siguiente.

Figura 6: Proceso para conseguir un HTTP-Referer
desde un GenAI Search Engine


Si quieres jugar con esto, tienes muchas herramientas ya disponibles en la web de LLMs.txt, que puedes utilizar en tus proyectos, pero si usas plataformas CMS para gestionar tus páginas web, seguro que tienen allí también estas acciones. 
Lo que es importante es entender cómo funciona, para que sirve, y que los flujos de AI-Crawl to Human-Web/Mobile Content sea el que tú has definido, y que controles el flujo de cómo funciona tu contenido en los GenAI Search Engines. Esto aún va a dar muchas más vueltas, seguro...

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


domingo, abril 30, 2023

Una charla entre Lucia Rico y Chema Alonso en Lucia y el SEO Talks

Pues para acabar el mes de Abril, y teniendo en cuenta que seguro que la mayoría estaréis descansado, de puente, de vacaciones, de relajación mental y física, os dejo hoy una entrevista en el podcast de Lucia y el SEO que dirige Lucia Rico y al que me invitó hace ya unas semanas.
Es una charla de 45 minutos, en los que hablamos de tecnología en general, de ciberseguridad y de inteligencia artificial. Nada nuevo bajo el sol, teniendo en cuenta que es lo que hago yo habitualmente, así que todo dentro de los parámetros habituales.
Si queréis contactar con Lucia Rico, o visitar su programa, ella tiene su perfil en MyPublicInbox. Podéis ver todas las entrevistas que realiza en su canal de Youtube, donde ha entrevistado a Pablo BloweArts, dibujante de Las Tiras de Cálico, o a muchos otros grandes profesionales de este mundo nuestro.


Os dejo subido el vídeo a mi canal de Youtube, pero con la esperanza de que lo veáis - o lo escuchéis - cuando podáis. Lucia Rico sube el programa en formato podcast, y lo tenéis en todas plataformas, así que por ejemplo, lo tenéis en Spotify.


Y nada más, que es domingo, fin del mes de Abril, y puente, a disfrutar el día que es lo que hay que hacer hoy. Yo tengo lo mío con Mi Hacker v2.0 & Mi Survivor, así que os deseo mucha felicidad, relax y descanso. Y recordad: No hacer nada y estar feliz también es una buena alternativa.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


viernes, abril 07, 2023

Google Search Perfect Phishing con ReturnURL además de BlackSEO

Configurar un parámetro como ReturnURL en un proceso de autenticación es bastante común. La lógica detrás del programador de algunas de estas aplicaciones es sencilla. El usuario pide una URL que está protegida por una sesión autenticada, pero el usuario que ha demandado esa URL no lo está, así se hace un redirect a la página de Login con un parámetro ReturnURL que es la URL a la que debe navegar la web después de que termine el proceso de Login. Muy sencillo, pero si se hace mal, un posibile problema de seguridad.

Figura 1: Google Search Perfect Phishing con ReturnURL además de BlackSEO

Y es que si cualquier atacante puede manipular el valor de ReturnURL para poner la URL que quiera, y el código que procesa el valor de ReturnURL después de que se haya autenticado hace la redirección sin comprobar la seguridad del mismo, entonces se puede tener Perfect Phishing. Es decir, un enlace a la URL del sitio legítimo que cuando el usuario la visite y se autentique, llevará a una URL maliciosa para hacer lo que quiera. 

Figura 2: Sitios con ReturnUrl y protocolo http/s en el GET indexados en Google

Podrá lanzar un exploit, intentar instalar malware, o simplemente ir a una URL de Phishing de este sitio solicitando otra vez la contraseña pero esta vez con un dominio alojado en un sitio de typosquatting, tan común para engañar a víctimas.


Si además, esta URL maliciosa, con el parámetro ReturnURL malicioso se puede indexar en Google con técnicas de SEO, dando de alta la URL en el buscador con técnicas de BlackSEO, pues tendrás una URL maliciosa de Perfect Phishing, indexada en Google para el dominio legítimo, con lo que será un Google Search Perfect Phishing, igual que cuando hablaba de los Cross-Site Scripting Google Persistentes.

Figura 4: Sitio web explotado con BlackSEO por ReturnURL

Esto, los veteranos del desarrollo seguro lo tienen bastante controlado, sobre todo en aquellos sitios en los que el parámetro ReturnURL se usa para marcar URLs de redirección cuando hay situaciones de error, inesperadas, o simplemente para hacer un servicio de "volver atrás", pero sorprende la cantidad de sitios que aún tiene este problema de seguridad.

Ricardo Martín y Chema Alonso

Jugando con esto, que son temas de los que hablamos en el libro de Hacking Web Technologies 3ª Edición, es fácil encontrar en Google muchos sitios que hacen uso de parámetros de ReturnURL, y buscando con términos utilizados habitualmente en el mundo del BlackSEO aquellos que ya están explotados e indexados, como este caso de este dominio.

Figura 6: ReturnURL vulnerable explotado

Basta con darse cuenta en la URL como se ha aprovechado un mal procesamiento de este parámetro por parte del programador, así que añadiendo un dominio sin protocolo (http/s) se hace una redirección perfecta. Teniendo en cuenta que no tiene protección contra indexación usando los parámetros de indexación adecuados, quedan en Google perfectamente indexados.

Figura 7: El dominio redirige con BlackSEO a diferentes URLs... de todo tipo

Así que, si alguien quiere hacer una web de phishing de un dominio como el anterior, y la indexa, tendrá un Google Perfect Phishing para éste, o cualquier otro dominio que tenga un ReturnURL vulnerable, y un dominio indexable por BlackSEO. Al final, cualquier debilidad sumada a cualquier vulnerabilidad, facilita esquemas de ataques que automatizados pueden hacer daño a tu organización.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


sábado, junio 06, 2020

La estafa de las inversiones en BitCoin que usa la imagen de Dani Rovira, David Broncano y otras personas populares con Gremlin Ads y Fake News

Hace tiempo que se habló de esta estafa, pero recientemente han vuelto a invertir en campañas de anuncios en los principales medios de comunicación para engañar a más gente. La estafa es que hacen creer a las personas que algunos de los profesionales más populares y de mayor éxito han hecho una inversión en BitCoin y que les va de maravilla. Buscando dar confianza a las "víctimas" y atraerlos a su redil. Como el viejo timo de la estampita o el tocomocho.

Figura 1: La estafa de las inversiones en BitCoin que usa
la imagen de Dani Rovira, David Broncano y otras personas
populares con Gremlin Ads y Fake News


Si no conoces estos timos, todos se basan en lo mismo, en hacer creer al que va a ser estafado que es más listo que los demás, que los demás son tontos y no se dan cuenta, y que él puede aprovecharse porque es más listo. Pero al final, es él quien cae estafado. En este vídeo se explica muy bien.
Y por supuesto, ganar dinero con la especulación de BitCoin se ha convertido también en una de las luces que más atracción ha generado entre los ávidos de ser más listos que los demás. No, no me entendáis mal, el crecimiento del valor de BitCoin ha tenido momentos espectaculares, y también caídas brutales. Hay gente que ha convertido unos dólares en casa, pero también ha habido caídas brutales.

Pero lo peor y más complicado de esto es que hay muchos "BitCoin", hay muchas criptomonedas, hay muchos exchangers, hay mucho que saber para saber dónde metes tu dinero y, sobre todo, que no es evidente que lo puedas sacar cuando quieras,. No quiero que este artículo sea sobre todas las cosas que hay que tener en cuenta cuando se hace una inversión en criptomonedas - sea cual sea -,  pero sí expresar que el fraccionamiento de las criptomonedas - del propio BitCoin incluido - y los markets es muy alta, y que su utilización no es tan evidente.

Figura 3: BitCoin: La tecnología Blockchain y su investigación
de Felix Brezo y Yaiza Rubio

Si quieres conocer más sobre BitCoin y la tecnología y funcionamiento que subyace, nuestros compañeros Felix Brezo y Yaiza Rubio hablan de todos sus detalles en el libro "BitCoin: La tecnología BlockChain y su Investigación", que te recomiendo que leas si te gusta el mundo de la ciberseguridad y te atrae BlockChain y BitCoin. Verás que no es tan fácil como pensabas al inicio.

La "estampita" en el BitCoin

Y ahora viene el tema. En el Timo de la Estampita o el Tocomocho, tenemos dos personajes fundamentales. El "Tonto" que es el que no sabe aprovechar el valor de lo que tiene delante - que puede ser un billete de lotería premiado, o una quiniela de fútbol premiada, o una herencia , o una inversión fantástica sin perdida en Bitcoins -, y el "Enterado" que es otro listo que como tú, sabe que la oportunidad es buena y la va a aprovechar, la ha aprovechado o te deja que la aproveches sacándote algo para el tonto.

En cualquier caso, al final, ni hay cupón premiado, ni hay billetes, ni hay quiniela premiada, ni hay herencia, ni hay ganancias aseguradas en la inversión en BitCoin que has hecho en "esa" plataforma por mil motivos distintos. 

Figura 4: Anuncios patrocinados para la campaña de la estafa


En estas campañas, yo me he encontrado el "gancho" en anuncios patrocinados de artículos de principales diarios nacionales, como este caso que, haciendo clic en el artículo patrocinado de "10 Hábitos de las personas con éxito financiero", lleva a la campaña de "malvertising".

Gremlin Ads

Por supuesto, no es una campaña que sea fácil de detectar para los proveedores de ads de estos medios digitales, ya que son "Gremlin Ads". Es decir, se activan solo puntualmente mediante redireciones y técnicas de cloaking del artículo enlazado de "10 Hábitos de las personas con éxito financiero". Es decir, algunos verán ese artículo, y algunos otros, puntualmente, verán alguno como este.

Figura 5: Llegamos a la Fake News con la imagen robada usada como "Enterado"

Como podéis ver, esta estafa lo tiene todo para adaptar las estafas tradicionales al mundo de Internet y usar todas las tecnologías. Usa sitios web de Phishing - en este caso como si fuera de El Mundo - cuando realmente ha salido visitando El País, para lo que han comprado dominios especiales. 

Después, aplica la campañas de Malvertising gastando dinero en Ads para hacer SEO, BlackSEO y SEM, y por último usa BitCoin como reclamo usando Fake News para suplantar la imagen de personas populares en la figura del "Enterao" del timo tradicional. Una maravilla de cibercrimen.

Figura 6: El testimonio de un cliente satisfecho

El texto de la noticia es divertidísimo. El gestor de la inversión te pide 222 € y te promete que no vas a perder ni un céntimo, y el testigo que hizo la prueba lo saco dejando de llevar a su familia a restaurantes de comida basura con lo que: "hemos mejorado la alimentación además de tener la oportunidad de enriquecernos". Genial.

Figura 7: La misma noticia con la imagen del El País y David Broncano

Las personas que se han visto afectadas, por que lógicamente todas estas informaciones son mentira, son muchas. Se ha utilizado ilegalmente la imagen de David Broncano, Dani Rovira, Luis Suárez, Karlos Arguiñano, Natalia Oreiro, etcétera, y las imágenes de muchos medios de prestigio, como El País o El Mundo.

Figura 8: La misma noticia con la imagen de Luis Suárez

Al final, basta con que escribas el titular en Google, y automáticamente la opción de autocompletar te saca los nombres de las personas que se han visto afectadas por estas campañas para engañar a personas con inversiones "fantásticas" y "maravillosas". 

Figura 9: Lista de personas que han sido utilizadas en esta estafa

 
Figura 10: Vídeo de webs para "Hackear Facebook en 1 minuto"

Os dejo los dos vídeos de los Hackers for Hire y de Cómo hackear Facebook con mi chiringuito para que si compartís este artículo con alguien que os haya hablado de estas inversiones fantásticas, pueda ver el resto de estafas.

Figura 11: Hackers for Hire "La estafa"

Y nada más, espero que os sea interesante esta información y que no caigáis ni vosotros ni ninguno de vuestros familiares y amigos, que cuando más les funcionan estas estafas, más estafas aparecen. Nosotros vamos a comenzar a reportar desde nuestro SOC de ElevenPaths las URLs de este tipo de campañas que detectemos a los motores de seguridad de nuestro servicio de Conexión Segura para evitar que lleguen a nuestros clientes el máximo posible.

Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

martes, mayo 14, 2019

Custom Search Engines para hacer Google Hacking "Like a Boss"

Desde hace tiempo Google permite crear lo que se llaman "Custom Search Engines", o lo que es lo mismo, vistas de lo que es el motor de búsquedas completo de Google. Por definición no es que amplíen para nada el contenido que hay en el buscador principal, pero a los usuarios menos diestros en el uso de los parámetros y modificadores de búsqueda, les puede venir que se les ofrezca un Custom Search Engine o CSE pre-cocinado.

Figura 1: Custom Search Engines para hacer Google Hacking "Like a Boss"

La idea es bastante simple. Supongamos que una persona sin conocimientos avanzados de las opciones de búsqueda tiene que buscar, para su trabajo, documentos de un determinado tipo, y siempre acaba perdida en dominios que tienen otros documentos similares, o que por medio de técnicas de SEO se han posicionado mejor.

Esto puede generar un auténtico quebradero de cabeza a la organización, ya que estos usuarios que se "pierden" con las búsquedas, son carne de cañón de las técnicas de BlackSEO para hacer ataques de malware, phishing o cualquier otra amenaza que se pueda colar en el buscador.


Figura 3: Introducción a Google Custom Search Engine

Para evitar eso, un administrador de una empresa puede filtrar con un CSE dónde van a poder buscar esas personas y listo. Así, se puede forzar a que un CSE que va a utilizar un administrativo solo pueda hacer búsquedas de un determinado tipo de documento y en un determinado conjunto de dominios.

Figura 3: Libro de Hacking con Buscadores 3ª Edición

Es decir, un Google "pre-configurado" que puede darse a un usuario, o directamente el dueño de la web puede instalar dentro de su propio sitio. El vídeo de la Figura 2 lo explica bastante bien. Por supuesto, si eres un amante del Hacking con Buscadores, puedes pre-configurarte tus propios CSE para realizar búsquedas de Google Hacking de una manera más cómoda. Y eso es lo que he hecho yo.

Robots.txt y Sitemap.xml

Si lleváis un tiempo en esto del mundo del Hacking de Web Technologies, sabéis que una buena fuente para hacer dorking - es decir, buscar objetivos de forma masiva - es utilizar las técnicas de Google Hacking. Cuando un atacante descubre una vulnerabilidad que afecta a una versión de software concreto, o una debilidad que se puede explotar en muchas webs, como el caso de portales de impresoras, o módulos de estadísticas vulnerables, hacer dorking y localizar objetivos afectados es el camino habitual.

Figura 4: Libro de Hacking Web Technologies de Chema Alonso,
Pablo González, Amador Aparicio, Enrique Rando y Ricardo Martín.

Y como bien se explica en el libro de Hacking Web Technologies, o hemos podido leer en muchas ocasiones por este blog, buscar en los archivos de configuración de los buscadores es una forma muy cómoda de hacer dorking. Es decir, buscar en los ficheros Robots.txt o en los ficheros Sitemaps.xml nombres de ficheros que el propio administrador del sitio ha dicho que no quiere que aparezcan en el buscador.

Podéis leer el artículo de Chema Alonso del año 2013 en el que hablaba exactamente de esto, de cómo buscar en los sitios webs aquellos archivos que estaban prohibo ser encontrados por el buscador, lo cual es un poco contrasentido, ya que es verdad que el fichero en sí no queda - a priori - indexado, pero el nombre de fichero sí porque Google indexa los ficheros robots.txt y sitemap.xml.

Figura 5: Búsqueda en Google para localizar robots.txt indexados

Visto esto, quise hacerme un par de CSE para poder buscar directamente en ficheros Robots.txt y Sitemap.xml. Si ven la consulta de la Figura 5, es fácil personalizar CSEs para que hagan vistas de Google que busquen solo dentro de ficheros Robots.txt de los dominios que nos interesen. Los que yo cree y que pueden usar son para jugar con ellos son:

- Google Custom Search Engine para Robots.txt
- Google Custom Search Engine para Sitemap.xml

A partir de ese momento buscar en estas ubicaciones es muy sencillo. Por ejemplo, buscar rutas de bases de datos como buscaba Chema Alonso en el 2013 dentro de ficheros robots.txt sería algo como usar el CSE de Robots.txt y teclear solo bbdd.

Figura 6: Búsqueda de bbdd en robots.txt usando el CSE de robots.txt

Por supuesto se puede buscar lo que se desee. Cosas como private, privado, bkp, tar, zip, rar, bd, mdb, etcétera, etcétera. Si eres amante del Hacking con Buscadores, seguro que conoces los "juicy files" de las tecnologías web de esos que busca la FOCA.

Y lo mismo sucede si utilizamos el CSE de Sitemap.xml, que nos permite de forma cómoda buscar cualquier tipo de URL que pueda estar en uno de estos archivos, como por ejemplo rutas a documentos en Dropbox.com.

Figura 7: Resultados en el CSE de sitemap.xml

Al final, usar este tipo de Google Custom Search Engines puede ser bueno no solo para evitar riesgos de que usuarios se "pierdan", sino para hacer "dorking like a boss" sobre algún tipo de debilidad concreta o alguna tecnología específica.

Autor: Gustavo a.k.a Rootkit Pentester freelance e-mail:rootkit.redbird@gmail.com

viernes, enero 27, 2017

Google dice: "Este sitio puede haber sido hackeado" & “Este otro te puede hacer daño"

Desde los equipos de seguridad de Google tratan de evitar que los usuarios que navegan con Chrome se vean afectados con un problema de seguridad cuando visitan un sitio web que haya podido ser hackeado. Un servidor vulnerado puede tener alojar una página web para hacer un ataque de phishing, tener instalado un kit de exploits e infectar con un malware el equipo del usuario o simplemente haber sido utilizado para hacer una campaña de BlackSEO.

Figura 1: Google dice...

Estas opciones que están en Google Chrome, ahora también están disponibles en el buscador, por lo que puedes encontrarte un mensaje a la hora de buscar que diga exactamente eso, que éste sito ha podido ser hackeado. Yo me lo encontré mientras buscaba información sobre las tecnologías de Chip Racing, y en el primer resultado me apareció el mensaje.

Figura 2: Alerta de "This site may be hacked"
Si haces clic en el mensaje que aparece debajo, Google lo explica tal y como os he contado. Parece que las páginas de esta web han cambiado y pueden tener áreas spam, phishing o malware, por lo que a la vez que se recomienda al visitante que no la visite.

Figura 3: Información de la alerta "This site may be hacked"

Al mismo tiempo, la alerta da recomendaciones para los dueños del sitio web, con el objeto de que corrijan los problemas de seguridad que hayan sufrido y puedan quitar esa alerta, que sin duda les va a quitar tráfico de posibles visitantes.

Figura 4: Cómo eliminar este mensaje de las búsquedas de Google

No es esta la única advertencia que hace Google, pues también es posible toparte con una advertencia que dice "Este sitio puede dañar tu computadora". En este caso la cosa es que el sitio está instalando o intentando instalar software malicioso en el equipo.

Figura 5: Mensaje "This site may harm your computer"

La lista de las acciones son las típicas que se deben seguir después de cualquier intrusión, es decir, revisar qué ha pasado, solucionar la vulnerabilidad que haya podido ser utilizada para vulnerar el sitio, limpiar el servidor completamente, tomar medidas de fortificación que eviten  en lo posible que esto vuelva a suceder y solicitar a Google que re-evalúe el sito para que una vez que se determine que está limpio elimine el mensaje que aparece en el buscador.

Figura 6: Siete pasos para arreglar el problema

Sin embargo, que no aparezca este mensaje, o el mensaje de que este sitio ha sido hackeado no quiere decir que el sitio sea 100% seguro, así que no hay que tomarlo de esa forma ni mucho menso. Basta con hacer una prueba para ver si estás "jodido por la viagra", y comprobar que en los dominios .es hay muchos sitios que están vulnerados y Google no muestra ninguna advertencia.

Figura 7: Lista de sitios infectados con la viagra

Al final, todas estas alertas son buenas y dan ayuda, pero no evitan que tu tengas que hacer tu trabajo de fortificación de Windows y de fortificación de Linux para evitar un ataque proveniente de una web que ha sido hackeada, que desde hace mucho tiempo se sabe que es un negocio muy lucrativo para el cibercrimen.

Saludos Malignos!

viernes, junio 17, 2016

BlackSEO: Así es como los cibercriminales montan su negocio en la Web de otros #BlackSEO #Cibercrimen #SEO

El mundo del BlackSEO (BlackHat Search Engine Optimization) tiene muchas formas de funcionar. Hace ya mucho tiempo, como siete años o así, colaboré con Chema Alonso en un artículo llamado "Técnicas SEO para gente de moral relajada" en el que reflejábamos algunos de estas, pero hoy os quiero contar una historia nueva, para que veáis cómo han ido evolucionando este negocio que, como todo en el mundo digital, se adapta a las nuevas necesidades día a día, aquí va la aventura.

Figura 1: BlackSEO. Así es como los cibercriminales montan su negocio en la web de otros

Hace poco me encontré un dominio curioso. La mayor parte de los buscadores que suelo usar para las técnicas de Hacking con buscadores que describo en mi libro, haciendo caso a su fichero robots.txt, apenas decían saber nada de él:

Figura 2: Nada de información del dominio scriptds.com en los buscadores

La excepción a esto, sin embargo, era el buscador qrobe.it que había decidido ignorar las recomendaciones de robots.txt.

Figura 3: Resultados en Qrobe.it para este dominio

Una cosa a tener en cuenta cuando usas Qrobe es que éste genera sus respuestas de una forma mucho más dinámica que la de otros buscadores. De modo que a veces, si se recarga la página, se obtienen otras distintas:

Figura 4: Nuevos resultados con solo una recarga de página

Aparecen en los ejemplos tres tipos de resultados. Para empezar, el correspondiente a la página inicial del dominio, de la que no tenemos otra información que la URL. En segundo lugar, hay otros que hacen alusión a fármacos. Y, finalmente, nos encontramos con uno que incluye el texto “kodirovka”.

Análisis inicial del dominio

Por si hay aquí alguien que no sepa ruso, kodirovka es una palabra de ese idioma y significa “codificación”. Si se usa el traductor de Google para saltarnos las barreras del idioma, puede comprobarse que es una herramienta de codificación de cadenas de caracteres para su uso en URLs.

Figura 5: Traducción de la página de kordirovka

Y, dicho sea de pasada como curiosidad, este script no tiene un acabado demasiado profesional. Si se le pide que codifique algo… la página muestra un mensaje de tipo warning que revela detalles sobre la plataforma sobre la que está desplegada.

Figura 6: Mensajes de error con filtrado de información

Un sitio web con páginas sobre medicamentos y un URL encoder. Curioso. Pero más lo es el resultado que obtuve cuando utilicé una herramienta de análisis de SEO Congnitive SEO Explorer, para obtener más información. Tras indicarle el nombre del dominio a estudiar, hacer clic en el correspondiente botón y esperar un poco, apareció un dato curioso.

Figura 7: Resultó ser un dominio con buena influencia

De manera que un dominio del que la inmensa mayoría de los buscadores no muestran más resultados que su página principal (o incluso ni eso) y que contiene lo que contiene es considerado como poseedor de una buena influencia SEO. Esto pasa ya de curioso a interesante.

Dos niveles de gestión del SEO

Cognitive SEO Explorer proporciona un gráfico de distribución de enlaces que nos indica qué páginas aportan enlaces al dominio. En este caso, el diseño del ecosistema montado para promocionar el dominio era claro. Sencillo a la par que elegante:

Figura 8: Gráfico de distribución de enlaces

Como puede observarse, la arquitectura está fuertemente jerarquizada. El nodo central de la imagen se corresponde con el propio dominio. A él se conectan sus páginas, que son quienes le aportan su “influencia SEO”. Éstas a su vez reciben enlaces de otras, pertenecientes a otros dominios.

Figura 9: Segundo nivel

Llama la atención que cada página externa (cada nodo periférico en el gráfico) aporta enlaces a una única página del dominio objeto de estudio. Algo que no siempre ocurre pero que se ve que en esta ocasión parece haber funcionado bastante bien y sobre lo que volveremos más adelante.

Análisis de los enlaces desde el exterior

A continuación del gráfico anterior, Cognitive SEO Explorer muestra una lista de las páginas externas que aportan enlaces al dominio, con indicación del destino de las mismas. El problema es que si no se tiene una suscripción de pago, esta relación tendrá una longitud máxima de 25 elementos. En cualquier caso, hay otras herramientas que pueden rellenar este hueco. Como Linkody BackLink Checker, que proporciona hasta 100 resultados, con sólo un enlace por domino de origen.

Figura 10: Linkody Backlink Checker


O también European Bussiness Connect Backlink Checker, que identifica de forma clara sus orígenes:

Figura 11: BackLink Checker

La información de la tabla mostrada en la imagen podría ser tratada con una hoja de cálculo para analizar ciertos extremos. Como el hecho de que muchos de los sitios que aportan (o aportaron) enlaces al dominio estudiado comparten dirección IP:

Figura 12: Orígenes de los enlaces

Y algunos lo hacen también con el dominio objeto de estudio

Figura 13: Nslookup

¿Es mucho suponer el pensar que todos estos sitios pueden estar relacionados, pertenecer a una misma red? ¿Que en ella cada dominio aporta enlaces a otro para darle relevancia? ¿Que el número de dominios implicados es grande?

Arquitectura multimarca

Si se piensa detenidamente, lo anterior no es tan raro. Algo similar ocurre en otros mercados, como el de los electrodomésticos: Una misma empresa (o un mismo grupo de empresas) ofrece sus productos bajo una serie de distintas marcas. De ese modo tienen más boletos en la lotería de ser elegidos por los consumidores. No es de extrañar, pues, que en el mercado de estas “tiendas” online de fármacos ocurra lo mismo. Para hacernos una idea, se puede partir de una de ellas, elegida al azar.

Figura 14: "Tienda" de medicinas. Fotos al estilo de los "Doctores del Viagra"

En la parte superior de la página, justo al lado del mensaje en el que te invita a revisar a tu prima (cada cual sabrá lo que hace) aparecen los teléfonos de contacto. Aunque tiene pinta de texto, en realidad se trata de una imagen. Una vez determinada su URL se puede usar como criterio en la búsqueda de imágenes de Google. Se hace clic sobre el icono de la cámara que aparece en el campo de consulta, se introduce la dirección:

Figura 15: Buscando por imagen en Google
Y obtenemos un total de...

Figura 16: Tiendas que utilizan el mismo número e contacto

Google dice que tiene 1.500 resultados. Claro que no va a darnos tantos. Y que algunos de ellos se referirán a otras imágenes parecidas. Y que es seguro que muchos dominios aparecerán repetidos varias veces. Pero aún eliminando estas contingencias, 1.500 siguen siendo muchos resultados.

Análisis de las salidas del dominio

Otro aspecto interesante de las herramientas SEO utilizadas anteriormente, es que aportan una lista de páginas del dominio objeto de estudio. Algo que los buscadores no nos proporcionaban.

Figura 17: Páginas del dominio

Todas ellas tienen un comportamiento similar. No tienen contenido propio sino que redirigen con código HTTP 301 (movido permanentemente) a páginas pertenecientes a otros dominios que parecen dedicarse a la venta de medicamentos.

Figura 18: Redirigido a una tienda

Se encontraron hasta cinco dominios distintos de destino, uno de los cuales ya no existe

Figura 19: Dominios de salida

Dos de ellos indican claramente en sus páginas que son sitios afiliados

Figura 20: Afiliados (texto sacado de dos páginas distintas)

O sea, declaran que no tienen en realidad una farmacia propia sino que se dedican a vender los productos de otras farmacias. Se supone que a cambio de una comisión u otra contraprestación. Ocurre como con los enlaces de entrada: aquí encontramos de nuevo un modelo de dos niveles con las tiendas reales y sus afiliados

Apariencia de ¿legalidad?

Las cosas mostradas hasta aquí pueden resultar llamativas e incluso sospechosas pero poco más. Un dominio que recibe enlaces, sobre todo, de una serie de dominios externos que parecen formar parte de la misma red. Y cuyas páginas redirigen a pretendidas farmacias online.

Salvo que las farmacias operen al margen de la ley, todo parece... legal. En cuanto a si es legítimo o no, eso es algo que siempre se podrá discutir. La balanza puede comenzar a inclinarse hacia el “no” cuando, analizando los enlaces entrantes al dominio, nos encontramos con páginas creadas en sitios de hosting gratuitos exclusivamente para tal fin:

Figura 21: Páginas en sitios de hosting gratuitos

Pero, sobre todo, se decide cuando se encuentra un caso de sitio web de un ayuntamiento al que se le han añadido contenidos de forma no autorizada:

Figura 22: Sitio web vulnerado

En todo caso, éste es el único de los enlaces encontrados que parece tener un origen ilegal. Es extraño que alguien dispuesto a realizar este tipo de actividades lo haga una única vez. Que no repita. Si hasta hay ya mercado fuera de rincones oscuros de la red para vender y comprar estos servidores vulnerados.

Los donantes del PageRank

Y es que en realidad sí lo hizo. Sólo que eligió otro escenario para su actuación. Como se recordará, el dominio que estamos analizando era sólo un primer nivel en una arquitectura de dos capas. En la segunda se encontraban los dominios externos que le aportaban enlaces (y relevancia SEO).

La mayor parte de éstos tienen un modelo de comportamiento común. Presentan una única página compuesta por una única imagen que llena toda la ventana del navegador y que es en realidad un hiperenlace. No es de extrañar pues que, como se vio anteriormente, sólo puedan aportar un enlace al dominio estudiado.

Para la organización o persona que los gestiona, estos dominios de segundo nivel parecen ser los peones de una partida de ajedrez. Para empezar porque da la impresión de que no se han molestado demasiado en darles un contenido que al menos tenga buena apariencia. Por ejemplo, muchos de ellos usan la misma imagen y el nombre de la tienda que aparece en el pie de página no se corresponde con su nombre.

Figura 23: Discordancia

Y también porque así lo insinúa un análisis de sus características SEO. Lo primero que llama es la estructura de los enlaces:

Figura 24: Estrella de la arquitectura de BlackSEO montada. ¿No es bonita?

Un único nivel en estrella. Una obra de arte de ingeniería de BlackSEO. Y esta vez los orígenes de los enlaces son en ocasiones bastante sospechosos: sitios que Google cataloga como posiblemente vulnerados o maliciosos, páginas con contenidos extraños, posiblemente añadidos de forma ilegítima, en dominios que no tienen ninguna relación con los fármacos, etcétera.

Figura 25: El lado oscuro

Bien pensado, tiene su lógica. Una vez un dominio tiene cierto peso en los buscadores, su valor económico comienza a ser relevante y útil para el SEO. Seguro que su propietario no querría perderlo. De modo que, para no echarlo a perder con problemas con Google y otros buscadores, ni con la ley, mejor que los enlaces que reciba y su apariencia sean lo más limpios posibles.

Sin embargo, un dominio creado recientemente aún tiene poco valor. Puede ser él el que reciba los enlaces ilegítimos y/o ilegales y si esto ocasiona problemas… se elimina y ¡listo!. Eso sí, mientras su suerte no se haya decidido, mientras no se sepa si está destinado a desaparecer o a mayores glorias, puede ir aportando enlaces a los dominios estrella de la casa.

Y, quién sabe, quizá con el tiempo él se convierta también en uno de ellos y haya que hacerle un lavado de cara y adecentarlo un poco.

Autor: Enrique Rando, escritor del libro "Hacking con Buscadores"

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares