lunes, febrero 02, 2015

I, Robot: Cómo leer el periódico online sin tanto anuncio

Supongo que como muchos, la publicidad exagerada en los portales de noticias no os gustan demasiado. Parece que la web ha vuelto a los años 80 o 90 con tanto banner y tanto anuncio de políticas de cookies - que no tienen mucho sentido cuando es evidente -, pero hay que entender que ése el modelo de negocio para muchos sitios. Viendo todo esto, me pregunté si le estarían entregando toda esa publicidad también a los bots de los buscadores cuando les indexan, ya que el entregar una web tan pesada y con recargas después de la publicidad, suele ser malo par el SEO, así que decidí echarle un ojo a los principales periódicos y resulta... que Google no ve tanta publicidad.

Figura 1: I, Robot o "cómo leer el periódico online sin tanto anuncio"

Para entender lo que sucede, hay que hablar de las técnicas de cloaking, que se utilizan para mostrar distinta información a los bots que utiliza Google para indexar que al usuario final que se conecta.

Navegando con el User-Agent de GoogleBot

Esto, como ya he dicho, se suele utilizar como forma de dirigir mejor el SEO de una web, y algunas veces Google ha penalizado cuando se hace intentando manipular la indexación de resultados de manera descarada cambiando radicalmente el contenido que se muestra al usuario con el que se muestra al bot.

Figura 2: User-Agents utilizados por los bots de Google

Este filtrado de contenido en función del cliente no siempre se hace para engañar a Google en campañas de BlackSEO sino que a veces se hace por otros motivos que tienen que ver con la eficiencia, el mejor ajuste de contenido o directamente porque hay impacto en el negocio del sitio. En cualquier caso, sea el motivo que sea, una web puede hacer un filtrado por dirección IP de origen, por el valor de HTTP Referer del que venga o por el campo User-Agent que muestre el navegador, y mostrar una página web diferente en cada caso.

Figura 3: Cambiar el User-Agent en Mozilla Firefox para simular ser GoogleBot

Yo quería ver si al GoogleBot le estaban mostrando tanta publicidad, así que me fui a la página de Google a buscar cuáles era los últimos valores de User-Agent que estaba utilizando, y me configuré varios utilizando las herramientas de Mozilla Firefox para configuración del campo User-Agent que permiten hacer un spoofing del auténtico navegador.

Figura 4: Página de El Pais mostrada si se navega con el User-Agent por defecto de Mozilla Firefox

Una vez hecho esto, fui a navegar a la misma página del periódico, y me sorprendió - en positivo - que no me aparecía tanta publicidad en la web, solo porque estaba navegando con el User-Agent de GoogleBot.

Figura 5: Página de El País si se navega con el User-Agent de GoogleBot

Esta misma prueba la realicé en varios periódicos, y el resultado fue más o menos similar. Como se puede ver en esta primera captura, aparece un banner superior en la portada y otro banner en la misma página.

Figura 6: Página de El Mundo si se navega con el User-Agent por defecto de Mozilla Firefox

Mientras que navegando con el User-Agent de GoogleBot ya no hay tanta publicidad en la página, y la navegación es mucho más cómoda. Todo, sin hacer uso de ningún adblock o similares.

Figura 7: Página de El Mundo si se navega con el User-Agent de Google Bot

Cambiar el USER-Agent en los dispositivos móviles

Este truco de cambiar el User-Agent se puede utilizar también en los dispositivos móviles. En el caso de iPhone o iPad, es necesario hacerse con un navegador que permita utilizar otro valor de User-Agent, como por ejemplo Sleipnir, que tiene una opción de personalización. Yo he configurado el valor del User-Agent de GoogleBot, tal y como se ve en estas imágenes.

Figura 8: Configuración de un User-Agent de GoogleBot en Sleipnir para iPhone

Después, se puede comparar la misma web de el periódico El Mundo vista con el User-Agent normal de Safari Mobile en iOS y vista con el User-Agent de GoogleBot en el navegador Sleipnir.

Figura 9: A la izquierda navegación con User-Agent GoogleBot en Sleipnir.
A la derecha navegación con el User-Agent normal de Safari Mobile en iOS.

La misma prueba, pero con el periódico de El País, donde también desaparecen algunos anunciones con solo simular ser un GoogleBot.

Figura 10: A la izquierda navegación con User-Agent GoogleBot en Sleipnir.
A la derecha navegación con el User-Agent normal de Safari Mobile en iOS

En Android esto se puede hacer de igual forma con cualquier web browser que permita editar el valor de User-Agent, pero ten cuidado a la hora de elegir el navegador, ya que en Android hay muchos navegadores que son inseguros a ataques de man in the middle.

Aligerando tráfico para ganar velocidad con GoogleBot SmartPhone

Puede que los anuncios no se muestren porque las casas de publicidad no quieren contabilizar y pagar las impresiones automatizadas, así que los Ad Servers pueden filtrar estos User-Agent y no enviarlos. Pero lo cierto es que es una ayuda y puede ahorrar tráfico tanto en conexiones de pago como hacer que vaya más ligero el contenido en conexiones de poca velocidad.

Figura 11: Valor de User-Agent usado por Bot de Google Smartphone

Recordad que el truco de cambiar el User-Agent por el de Google, se puede hacer también por el User-Agent de la versión móvil, es decir, del smartphone, para lograr que ahorra tráfico en conexiones muy lentas.

Figura 12: Pagína de El País en versión móvil vista con el User-Agent de GoogleBot SmartPhone

Por ejemplo, la versión móvil de El País con el User-Agent de GoogleBot Smartphone va superligera y con muy poca publicidad. Así que puede ser una muy buen alternativa para utilizar tanto en el dispositivo móvil como en el equipo de escritorio. Esto, por supuesto funcionará mientras no apliquen técnicas avanzadas de Web Browsing Fingerprinting.

Saludos Malignos!

8 comentarios:

Anónimo dijo...

aguante adblock edge.

Anónimo dijo...

Para los que quieran cambiar user agent en Safari para el iPhone con Jailbreak es posible cambiando las preferencias:

https://www.reddit.com/r/jailbreak/comments/1v1sv4/howto_change_your_user_agent_for_safari_because/

o se puede usar el Tweak: User Agent Faker

Softbreakers dijo...

Muy interesante el truco. Funciona perfectamente en Chrome con la extensión "User-Agent Switcher for Chrome" de Glenn Wilson (hay una decena que hace lo mismo). Muy útil para los que hagan desarrollo web y quieran simular como se comportaría el engendro en desarrollo en otros navegadores web y en otros sistemas operativos.

Por cierto, o estoy torpe o los de El País han leído ya esta entrada...

Añadir que un truco similar se puede usar en la web de un conocido diario nacional para saltar el paywall que a veces aparece cuando quieres leer una noticia determinada. Tiene que ver con Google pero no es el User-Agent... Me di cuenta hace años que si accedía a una determinada noticia desde la propia portada del periódico, me saltaba el paywall. Pero si accedía desde el extinto buscador de noticias Google News, me aparecía todo el contenido. Desde entonces en el Chrome tengo instalada y configurada otra extensión más llamada "Referer Control" para que cada vez que accedo a la web de dicho periódico el campo "Referer" me lo cambie por http://www.google.com... con eso me libraba de tener que dar el rodeo de pasarme por Google News para leer un determinado artículo.

Anónimo dijo...

No llego a enteder como poder cambiar el 'user-agent', en chrome le estuve tocando pero no me cambia nada...Probe con esa extensión pero o no la configuro bien o nose usarla jeje
¿Cual sería el modo correcto de poner esto en práctica?
Gracias,
Saludos.

Luis Rodriguez dijo...

Que cosas tan interesantes... Sin ser tan divertido y potencialmente creativo, yo conozco otra manera de navegar por la web sin tanto anunció pagado.

La publicidad es sin lugar a dudas ruido entre la información, y en los "portales de noticias" -otro hora llamados periódicos- es un frío hecho. (del inglés, cold fact) (¿después de todo el que paga manda no, o ya no es así?!)

Yo -desde que lo descubrí en sus tiernos inicios- siempre he utilizado el Adblock Plus, como plugin gratuito, que realiza esta tarea de la forma mas efectiva. Por quitar, quita hasta los molestos anuncios del youtube.

El enlace:

https://adblockplus.org


Saludos y gracias por compartir tantas cosas entretenidas.

Anónimo dijo...

cloak
(klōk)
n.
1. A loose outer garment, such as a cape.
2. Something that covers or conceals: a cloak of secrecy.
tr.v. cloaked, cloak·ing, cloaks
To cover or conceal with a cloak or something that acts like a cloak: mist that cloaks the mountains. See Synonyms at disguise, hide1.

Por tanto, sería cloaking en vez de cloacking, que suena más al castellano 'cloaca' ;)

Isidro Gilabert dijo...

Confirmo que con El País no cuela... En cambio El Mundo y Libertad Digital son ahora más cómodos de leer... :)

Anónimo dijo...

Claro! así los medios que se alimenten de su fervor periodístico y de las suscripciones! hay que joderse.

Entrada destacada

Navaja Negra: La CON de Albacete el 29 de Septiembre @navajanegra_ab @elevenpaths @0xWord

Es la sexta edición de esta CON que comenzó hace ya más de un lustro en la ciudad de Albacete , reúne el próximo 29 de Septiembre a una b...

Entradas populares