jueves, enero 28, 2010

Buscando Buscadores

Con la irrupción de los buscadores en la empresa, es fácil encontrarse sitios web que ofrecen la opción de buscar y que por debajo están haciendo uso de una arquitectura mucho más compleja de lo que parece al principio. Puede que esos sitio sean sitios de SharePoint o que hagan uso de uno de los appliance de Google.

Muchas de esas empresas directamente, tras implantar la solución de indexacion empresarial que a ellos les convence, optan por prohibir a los buscadores de Internet, es decir Google, Bing y el resto, que los indexen.

La verdad es que esa actitud les salva de los famosos ataques que se realizan basados en Google Hacking. Ya son famosos los buscadores de vulnerabilidades a través de Google Hacking o los batidos buscando servidores mal configurados o hasta la misma FOCA que busca en Google y Bing los archivos publicados.

Luego no parece tan mala idéa eso de utilizar tus propios sistemas de indexación si el SEO te la trae al pairo, y lo único que te interesa es dar servicio a tus clientes, usuarios, etc...

Debido a esto, siempre que te encuentras una web con una opción de buscar, tal vez no sólo debas probar el XSS y sí pasar un buen rato haciendo un poco el gamusino, a ver si indexa algo más que no habías visto a priori.

En esta página web podemos ver el buscador de la Oficina de Justicia America. Estos chicos de américa que organizados que son, para encontrar justicia ponen un buscador. Como debe de ser coño.


Buscador de justicia...¡Yo quiero uno!

Sin embargo, quitando los parámetros GET que nos molestan para sentirnos como en casa, vemos que es un Google Appliance en el que podemos introducir los bonitos comandos de refinación de búsqueda. En este ejemplo en concreto, como tiene bloqueado el comando filetype, he utilizado el inurl para buscar ficheros de Quattro Pro. Por eso de buscar metadatos.


Buscando en el appliance

Como véis, la búsqueda devuelve una buena cantidad de documentos indexados, de tipo de fichero qpw y en el sitio de justice.gov. Sin embargo, si vamos a ver a papá Google a ver que dice de justice.gov, podéis ve como dice que no hay ningún documento QPW, lo que es incierto.


Buscando en Google

No, no tienes que salir corriendo porque Google haya terminado. Símplemente que el administrador del site, le ha pedido, amablemente a Google, que por favor no indexe ciertos ficheros, que ya lo hace él.

Tal vez lo habrá hecho por seguridad, tal vez por evitar soportar a los bots de los buscadores pidiendo y pidiendo documentos o tal vez, por si algún día pasa algo, que no acabe cacheado por ahí el dato.

En cualquier caso, sea el motivo que sea, si estás haciendo Google Hacking contra un sitio, primero busca el buscador del sitio, que a lo mejor te da más información que papá Google.

Saludos Malignos!

4 comentarios:

CentOS dijo...

vaya fail el ladrillo ese de apple ayer.. y aún así ya estiman 4 millones de unidades en este año. la gente en que piensa oh?

http://cache.gawker.com/assets/images/comment/4/2010/01/5b00d8520eee5ebd0dd0b18d160962ff/original.jpg

xDDDDD

vaaaa calientate algo quillo, un no luser o algo xDDDD

Saludos

Wi®

Patxi Vázquez dijo...

Venga sí, caliéntate un poquito y curráte un no-lusers.
Yo te doy ideas:
iPad = iTampon

Thor dijo...

¿Como lo han hecho? Porque el robots.txt solo contiene esto:
User-agent: *

Disallow: /resources/*2.pdf
Disallow: /lyris/
Disallow: /Lyris/
Allow: /cps/rde/xchg/justice/hs.xsl/

Lo cual permitiría indexar esos qpw, no?

Thor dijo...

Me callo estaba mirando en justice.org, no .gov

http://www.justice.gov/robots.txt
Ahí si:
Disallow: /

Entradas populares