jueves, septiembre 12, 2013

Buscando en robots.txt lo que está prohibido encontrar

Otra de las características que me sorprenden de los buscadores es que indexen los robots.txt. Ya os he contado muchas veces que el hacking driven by robots es algo de lo más común y la FOCA analiza los robots.txt buscando después los juicy files de un sitio web, pero para "jugar" un rato con esta característica aún es mejor. 

Es genial, porque como es un archivo TXT no puedes usar una etiqueta Meta noindex y solo te queda ir a las etiquetas HTTP X-Robots-Tag: noindex, nofollow, pero por supuesto casi nadie - o nadie - lo aplica al fichero robots.txt en sí. Además, de que si pones una etiqueta de esas... ¿leería el bot de Google el contenido de robots.txt?

Esto hace que buscar directorios crappy haciendo Hacking con Buscadores a través de Google sea tan sencillo como forzar una búsqueda en los archivos robots.txt como algo como inurl:robots.txt ext:txt y luego añadir el nombre del directorio que más te guste.

Figura 1: Buscando bases de datos en los robots.txt

Esto permite a cualquiera localizar los directorios de WordPress o cualquier otra plataforma comúnmente utilizada en Internet, pero no sólo eso. Se pueden buscar carpetas con nombres como privado", por ejemplo.

Figura 2: Encontrando en los robots.txt carpetas con contenido "privado"

O sitios web con carpetas que guardan bases de datos protegidas por algo tan poco seguro como la oscuridad. Basta con que alguien acierte con el nombre del fichero de datos que almacena en esa carpeta la base de datos para que la descargue.

Figura 3: Encontrando bbdd en los robots.txt

O casi cualquier cosa que se te ocurra, como documentos de cualquier tipo. En este caso yo he probado con los documentos Excel, pero puede aparecer de todo en los archivos robots.txt.

Figura 4: buscando carpetas con ficheros Excel

Figura 5: Encontrando carpetas de excelfiles en robots.txt

Desde luego, para un ninja dorkeando por robots.txt, esto puede ser una forma sencilla, cómoda y rápida de sacar maná de la red. ¿Tiene sentido que se indexen los ficheros que sirven para decirle a los buscadores que no indexen ficheros? Lo dudo mucho.

Saludos Malignos!

7 comentarios:

xkz dijo...

Joe! Siempre lo había pensado, pero creía que era una de mis paranoias (nunca lo comprobé)

Gracias por el artículo! ¿Se te ocurre alguna solución para los webmasters que seguimos "Un informático en el lado del mal"?

Un saludo

Anónimo dijo...

Interestante ver que "inurl robots.txt ext:txt site:elladodelmal.com" no devuelve ningún resultado. ¿Es que no tienes nada que ocultar?

Xavi Ondoño dijo...

En realidad para cotillear el robots.txt de esta página basta con poner "http://www.elladodelmal.com/robots.txt".

Pero os ahorraré la decepción, sólo hay el default de blogger vacio... Me esperaba alguna broma o algo, la verdad xD

tayoken dijo...

El robots que más me ha impresionado siempre es el del B.O.E.

http://boe.es/robots.txt

Linuxito dijo...

Lo que hay que hacer es filtrar utilizando mod_rewrite, para que los robots.txt puedan ser accedidos sólo desde direcciones IP de los crawlers. Filtrar por User Agent no sirve porque es fácil de plagiar.

A. Rusell dijo...

Si bien bloquear el acceso al archivo permitiendo únicamente los bots autorizados de los buscadores (tarea eventualmente factible, aunque bastante difícil), el problema de fondo consiste en que estos archivos son indexados por los buscadores, lo que finalmente se traduce en:

* es posible buscar por contenido para detectar posibles vulnerabilidades de manera centralizada sin necesidad de recorrer todos los uno por uno (bueno, que justamente es lo que hacen los buscadores).

* y, peor aún, has perdido el control del contenido de los archivos: los recortes en el resultado de la búsqueda pueden ser suficientes, y para todo lo demás existe la Cache.

Aprovecho para preguntar:

¿Sabéis por qué estos archivos no fueron definidos por el paradigma de lista blanca?

Allow:
/public/*
/html/*

Si uno pudiese indicar solamente los directorios permitidos, no habría problema en que los archivos fuesen públicos.

Anónimo dijo...

http://amigodlosdebiles.wix.com/noun#!robots-/ccqf

Quiero aportar una pequeña información y decir desde mí punto de vista, que robot.txt, no es igual a robot(s) de tracker o rastreadores.

Y cuando algunas personas se refieren a los comandos de secuencias de resultados de busquedas en los Meta-buscadores
támpoco está relacionado per sé.

Yo tenía una lista de gran cantidad de comandos para lo mencionado en el último párrafo.
adm:user/..etc
Pero por diversos motivos me deshice de todo.
Por ejemplo si usted desea comprobar el poder de Google y sus resultados, existen programas gratuítos para Webmasters, como :
http://mabsoft.com/

1.Descarguelo.
2.Busque Start.
3.Network_Tool.
4.En el menú que aparece,
busque Power of Google.
5.Seleccione sus preferencias.

Pero como he comentado anteriormente, ésto no es un bot, un exploit, o blackholes.No.
Ésto son secuencias de busquedas para archivos mal llamados robots.txt para indexar los resultados de busquedas de resultados alojados
en el Metabuscador(servidor de multiple acceso libre, que aparecen cuando tecleamos en la dirección de busqueda información general de resultados de algo relacionado con.
Otra cosa, Crawler también es un Meta-buscador de resultados generales, que hace años por no decir más de una década se relaciona con el mundo H.
Para usted encontrar los post que se están editando en un momento dado, o si el blog está subiendo contenido no necesita programas adiconales de software, sin lo comentado anteriormente, ubica la secuencia de composición de determinados comandos de busqueda para el servidor, y voilá.
La lista blanca creo que se refiere a los sitios o Ip-s de rangos permitidos.Eso es para atraer tráfico de visitas o aumentarlas, para un determinado lugar donde el Webmaster lo creo, o ubica uno por defecto.
Otra cosa, cuando aparecen los resultados de busquedas convencionales con una determinada noticia, algunos usuarios observaran posiblemente que la fecha de la noticia es muy antigüa o remota en el tiempo.y la mayoría de las veces el mensaje de resultados que aparece es reciente con la fecha modificada o manipulada intencionadamente
Un ejemplo más para atraer visitas a un lugar, pudiendose considerar un robot.txt.

Muchas_gracias .

Saludos. )

Entradas populares