lunes, noviembre 23, 2009

Técnicas SEO para gente de moral relajada [V de VI]

**********************************************************************************************
- Técnicas SEO para gente de moral relajada [I de VI]
- Técnicas SEO para gente de moral relajada [II de VI]
- Técnicas SEO para gente de moral relajada [III de VI]
- Técnicas SEO para gente de moral relajada [IV de VI]
- Técnicas SEO para gente de moral relajada [V de VI]
- Técnicas SEO para gente de moral relajada [VI de VI]
Autores: Chema Alonso & Enrique Rando
**********************************************************************************************

Cloaking

En la primera parte de este artículo se vio como algunas webs intentan subir posiciones en los buscadores presentando a éstos un aspecto distinto del que se ofrece a los usuarios finales. A esta técnica se le denomina Cloaking, o Encubrimiento y ha venido siendo utilizada, a veces incluso sin mala intención, por sitios con malas características de indexación.

Google y Bing persiguen esta técnica, eliminando de sus bases de datos a los sitios que la utilizan. Para evitar ser detectados, los más finos Black SEO utilizan páginas cloaked y no cloaked con los mínimos cambios posibles, es decir, con el menor impacto de contraste, consiguiendo así reducir su exposición a los procesos automáticos de reconocimiento que utilizan los buscadores.

Para los SEO-Hackers, el cloaking tiene otra ventaja: pueden hacer que las modificaciones que realizan en sitios web vulnerados sólo sean visibles para los buscadores y pasen desapercibidos para los administradores de estos sitios y aquellos que podrían reportarles los problemas de seguridad.

Si se consigue que el ataque no sea detectado se conseguirá mantener el sistema controlado mucho más tiempo. El atacante puede tener, al más puro estilo rootkit, troyanizado un sitio web durante mucho tiempo si se realiza un ajuste fino de la configuración.

Es decir, no sólo permite que la página web sea indexada a gusto del Black SEO y le permita mover el pagerank de la web vulnerada hacia sus clientes, sino que ayuda a dificultar que los administradores de un sitio web vulnerado descubran que están siendo controlados.

A la hora de configurar el cloaking se pueden utilizar diferentes sistemas, permitiendo al atacante tener, al más puro estilo rootkit, troyanizado un sitio web durante mucho tiempo si se realiza un ajuste fino de la configuración.

Cloaking por User Agent

Este es uno de los más famosos. Para ello se utilizan técnicas como HTTP rewrite que hacen que sólo se muestren los resultados si el USER-AGENT de la web es el del buscador seleccionado. Esto hará que si un administrador se conecta a la web con su navegador, de forma normal, no vea ningún dato significativo.

Si el administrador no está informado de estas técnicas es posible que no descubra fácilmente que su web ha sido vulnerada. Sin embargo, esta técnica es conocida por aquellos avezados en seguridad y por tanto, es común revisar las webs, sobre todo en auditorías de seguridad, utilizando el USER-AGENT del bot de Google. Pero a veces no es suficiente.

Un ejemplo curioso de este tipo de ataques se puede ver en la web de McYadra.com. En ella, basta buscar a través de Google SEX en su sitio y aparecen más de 3.500 resultados. No es difícil de adivinar que no fueron puestos ahí por los legítimos propietarios del dominio.


Figura 21: 3.500 páginas con el término SEX en McYadra.com

Sin embargo, si se intenta acceder a ellas se obtiene un error de “Página no Encontrada”.


Figura 22: Error 404 si vienes con el USER-AGENT del Bot de Google.

Lo mismo ocurre si se prueba con el USER-AGENT del bot de Google. ¿Es que las páginas realmente no existen? Entonces... ¿Cómo podría Google indexarlas? ¿Quizá figuran en la caché aunque ya fueron eliminadas?

La respuesta es que las páginas sí están allí. Para comprobarlo, basta con cambiarse el valor del USER-AGENT al del MSNBOT.


Figura 23: Cambio de valor USER-AGENT en Firefox

Y volver a intentar acceder a las páginas que generaron dichos resultados en Google. Efectivamente, siguen estando ahí, donde el bot del buscador las encontró en su día.


Figura 24: Páginas accesibles con el bot de Bing

¿Cómo lo han hecho entonces? Pues afinando mucho más los resultados y añadiendo alguna capa más de cloaking para ocultar sus páginas mucho mejor ante cualquier visita no deseada.

Cloaking por HTTP-Referer

Otra de las técnicas para reforzar la protección de los sitios vulnerados es realizar el filtrado mediante el HTTP-Referer. Este campo Http indica al servidor desde qué página se ha llegado a la página actual.

En muchas de las páginas vulneradas no sólo se busca el posicionamiento mediante la preparación de resultados especiales para el bot sino que, además, se prepara una página con toda la riqueza de anuncios para el visitante si este viene desde un link en el buscador. Es decir, se comprueba el valor del campo Referer y si viene, por ejemplo, de Google con una cadena de búsqueda concreta… se le muestra una bonita página con anuncios relativos a la búsqueda realizada.

En muchos sitios afectados, se prepara una página para el bot del buscador y otra para los navegantes que vienen desde el buscador.

Cloaking por IP Delivery

El IP delivery, o entrega de páginas diferentes en función de la IP de origen de la petición, está permitido por los buscadores. Esto es así, porque incluso ellos lo utilizan para entregar sus propias páginas intentando reconocer los países o idiomas. Google lo usa, entre otras cosas, para la configuración de sus logos personalizados.

En el caso de Cloaking, basta con hacer que sólo se entregue la página cloaked si viene con el USER-AGENT de Google y sólo si viene de una de las direcciones IP utilizadas por el Bot de Google. Estas pueden ser consultadas en varios sitios, como el siguiente fichero: GoogleBots IPs


Figura 25: Rangos de IPs usadas por los bots

Esto permite que se consiga el mismo objetivo pero haciendo al administrador mucho más complejo detectar que está siendo vulnerado.

Reflexiones sobre Cloaking

En el caso de McYadra, tras analizar estos resultados parece posible que se esté realizando un Cloaking por USER-AGENT, permitiendo sólo al bot de MSN-Bing, y al Bot de Google, si este viene de una de las direcciones IP conocidas y usadas por el Bot.

Por supuesto, para hacerlo todavía más difícil de detectar, los archivos que se muestran a los clientes no se encuentran alojados en el servidor de McYadra.com sino en un tercero controlado por el Black SEO y que nunca entrega sus páginas directamente a ningún bot de buscador. Esto hace que lo que haya que cambiar en la web de la víctima sea muy poco y que los ficheros que se cargan estén ocultos ante búsquedas directas. En resumen:

Si el que solicita la página es el bot de Google desde una IP válida del bot o el bot del MSN, entonces se entrega una página con información cargada desde un servidor vulnerado y oculto. En cualquier otro caso: 404-Not Found.

Como se puede ver, el afinamiento a que puede llegar un sistema de Cloaking, puede convertirlo en un juego del gato y el ratón, en el que el Black SEO prepare las webs de tal forma que sea muy difícil de detectar por los controles anti Black SEO implantados por los motores de búsqueda.

**********************************************************************************************
- Técnicas SEO para gente de moral relajada [I de VI]
- Técnicas SEO para gente de moral relajada [II de VI]
- Técnicas SEO para gente de moral relajada [III de VI]
- Técnicas SEO para gente de moral relajada [IV de VI]
- Técnicas SEO para gente de moral relajada [V de VI]
- Técnicas SEO para gente de moral relajada [VI de VI]
Autores: Chema Alonso & Enrique Rando
**********************************************************************************************

8 comentarios:

Javier Lorente dijo...

Gran artículo, bajo mi punto de vista una de las técnicas que mejores resultados da de todas las expuestas hasta la fecha y la que si se hace bien, más difícil es de detectar (o fácil, quien me dice a mi que Google no tiene IPs secretas... Y user agents falsificados, claro.) Ahora, si te pillan... date por jodido, todavía recuerdo el caso de BMW Alemania, por citar un ejemplo.

Otra cosa, ¿qué tienes en contra del HTTP Referrer que no tengas en contra por ejemplo de la publicidad contextual? Yo todavía no lo uso, pero tengo pensado empezar a mostrar publicidad en algunos de mis sitios web analizando el HTTP Referrer. Incluso yo lo veo como una forma de "favorecer" a los usuarios más fieles no mostrándoles la publicidad que le puedes mostrar a los usuarios que venga de los buscadores. Siempre se puede putear más a un usuario nómada.

El cloaking por IP Delivery no se si está permitido por los buscadores o no ya que no he trabajado apenas con sitios internacionales. No obstante, dudo que sea cierto. Lo correcto creo que sería enviar a una URL o DOMINIO en concreto según la IP con una 301 pero no mostrar diferente información en una misma URL o DOMINIO según la IP.

Sobre lo que comentas de mcyadra.com no le veo la lógica a poner cientos de páginas con links si esas páginas apenas tienen relevancia... Será que yo soy muy white seo y que sigo creyéndome (iluso de mí) que eso no sirve para nada. :S O enlazan también las urls porno desde las urls principales SI indexadas "legalmente" por el buscador ?

No entiendo cuando dices "para hacerlo más difícil de detectar", te refieres a que en vez de poner los .html en el servidor de la víctima que los coloca en el servidor del atacante. Y cómo es capaz de referenciarlos desde una url del dominio de la víctima?

Y por último, que no se te olvide que aparte de las técnicas de detección automáticas. Google tiene a los aristogatos pululando por ahí... Yo no sería la primera vez que me encuentro aristocat.corp.google.com en un access_log

Saludos!

Maligno dijo...

@Javier

- Lo de BMW lo pusimos en la primera parte.
- El http referer lo usan cuando quieren que sólo se vean las páginas cuando vienen de google los usuarios. Al final es publi dirigida.
- El IP delivery está permitido.
- Lo de McYadra tiene texto para ser indexado, pero le faltan los clientes. Cuando tenga el cliente le pondrá el link al texto adecuado.
-Los pone en el server y no los referencia, los carga él mismo y los entrega desde mcyadra.
-Of course, por eso se usan estas técnicas y páginas con poco contraste ;)

Saludos!

Javier Lorente dijo...

@Chema

No me has contestado al porqué crees que usar el http referrer para mostrar publicidad dirigida es de "moral relajada".

El IP Delivery está permitido pero como yo me imaginaba, Google recomienda redireccionar mediante 301 (error mío el decir 301) hacia URLs distintas por idioma, he aquí la prueba de la fuente oficial (Google) http://www.youtube.com/watch?v=XWfqyy7J34s

Lo de McYadra me refería a que por mucho contenido que esté indexado, estas páginas tienen poquísima relevancia por lo que un link ahí valdría poquísimo. Es como si yo mismo construyese dentro de mi sitio un millón de páginas y enlazase una a la otra... ¿tendría un millón de páginas indexadas para colocar links válidos? Si... pero... NO.

En la entrada dices:

---------
"para hacerlo todavía más difícil de detectar, los archivos que se muestran a los clientes no se encuentran alojados en el servidor de McYadra.com sino en un tercero controlado por el Black SEO"
---------

En el comentario que los pone en McYadra. Me lío! :P

Un saludo!

Maligno dijo...

@Javier, no es que sea malo, de hecho se usa mucho y está permitido. Símplemente es que ese trick también lo usan los malotes, para que sólo salga lo que infectan con los usuarios que vienen de los buscadores. Pero hay mucha gente que lo usa normalmente.

Saludos!

Javier Lorente dijo...

Aclarado que el analizar el http no es nada "malo" siempre y cuando se haga anónimamente no estaría de más que aclarases también y en el pimer párrafo de toda esta serie si pudiese ser que esto no es SEO. Que todo esto que has dicho son técnicas para hacer WEBSPAM.

Creo que esto puede perjudicar seriamente a los que hacemos seo de verdad, serio y blanco. Seguro que me entiendes ;)

Maligno dijo...

@Javier, el artículo dice que usar el http referer puede ayudar a ocultar a los BlackSEO sus páginas, reducir el contraste, etc... Es una técnica que puede usarse de forma correcta, al igual que el IP Delivery e incluso, en sus orígenes el cloaking por USER Agent para los bots.

El título del artículo me gusta, y creo que es acertado. Poner tu link en todas partes es el objetivo y ellos lo hacen. Espero que te guste la sexta parte!

Saludos!

Administrator dijo...

hey !! chema para cuando el ultimo "episodio" estoy desesperao !! naa la verdad que me ha gustado mucho esta "saga" que has sacado.

Maligno dijo...

@Administrator, pues muy pronto espero, estamos repasando detalles de ella, pero ya está escrita.

Saludos!

Entradas populares