martes, julio 24, 2012

Robots en el sofá del Bank of América avistados en Google

Aunque el título suene algo extraño, lo que pone en el él es justo de lo que habla este post. Preparando una de las demos para esta semana en Las Vegas, estaba yo revisando los javascript del Bank Of America, cuando en uno de ellos salió un servidor con nombre bastante curioso:

Figura 1: Servidor en fichero JavaScript del Bank Of America

Por supuesto, la curiosidad me tenía que llevar a hacer un GET a ese servidor, a ver qué aparecía por allí, para descubrir que hay un servicio que está devolviendo el nombre de otro servidor.

Figura 2: Respuesta del servidor sofa.bankofamerica.com

Este tipo de servicios se utilizan en sistemas de reparto de carga, donde hay un controlador que redirige las llamadas al servidor menos ocupado o disponible en este momento. Por supuesto, quise saber si había algo más por allá, así que no me pude resistir a hacer una petición al robots.txt, por si podríamos estar ante un entorno vulnerable a un hacking driven by robots.txt tan común por desgracia.

Figura 3: Robots.txt en sofa.bankofamerica.com

Pero no, como era de esperar, habían tenido la precaución de prohibir a todos los buscadores la indexación de cualquier URL de este servidor, para evitar que alguien practicando el hacking con buscadores pudiera sacar petróleo. Bien por ellos.

Sin embargo, como me fio yo de los incomprendidos robots.txt más o menos lo justo, decidí hacer una búsqueda en Google a ver qué había indexado de este sitio, y la sorpresa - o no - fue que tenía un buen número de enlaces con un buen número de parámetros.

Figura 4: Enlaces de Sofa.bankofamerica.com indexados en Google

¿Por qué los indexa Google? 

Google descubre esas URLs con el mismo Google Chrome o cualquier barra de Google que esté instalada en algún otro navegador. Todas esas URLs son reportadas a los servidores, pero deberían ser filtradas. Esa fue parte de la discusión entre Google y Bing de que el segundo copiaba al primero.  Sin embargo, lo que más llama la atención es que al final Google no compruebe un fichero robots.txt tan explícito como éste. ¿Lo hará Bing.com

Figura 5: Bing.com no indexa nada de sofa.bankofamerica.com

Como se puede ver en la imagen de arriba Bing.com no indexa nada del Sofá del Bank Of America, como quiere el Bank Of America que suceda. Así que, voy a añadir el cumplimiento de los robots.txt como la quinta cosa que Bing hace mejor que Google... aunque para usar los buscadores como arma de destrucción masiva venga mucho mejor este comportamiento de Google.

Saludos Malignos!

2 comentarios:

palako dijo...

Y que dice la foca cuando le pasas sofa.bankofamerica.com? :) tendran el tresillo completo?

Capo dijo...

La cuestión es si Google hace esto por error, o si saben perfectamente lo que están haciendo. No lo tengo muy claro.

Entrada destacada

Programa de Especialización "Inteligencia Artificial para Expertos en Ciberseguridad" 2ª Edición.

Hoy, en medio del verano, os traigo información de la 2ª Edición del   Programa de Especialización  de "Inteligencia Artificial para Ex...

Entradas populares