Un informático en el lado del mal: ¿Cuántas copias históricas se pueden obtener de un documento publicado en Internet?

Una de las cosas que nosotros hacemos en nuestros sistema de Pentesting Persistente Faast es la búsqueda de todas las URLs históricas que ha habido en todos y cada uno de los sitios web de una organización. Para ello, una opción es irse a Archive.org y buscar todas las URLs pidiendo el listado completo de todas ellas, tal y como se explica en el artículo de Hacking con Archive.org.

Figura 1: El primer asterisco es para "cualquier fecha", el segundo es para "cualquier cadena a partir de aquí"

Una de las cosas que yo he estado mirando es cómo obtener de forma rápida, de una URL concreta, el número de copias distintas que tiene The Wayback Machine de ella. Es decir, saber ¿Cuántas copias puedo sacar históricas de una documento en Internet? Por ejemplo, si quiero saber la cantidad exacta de ficheros distintos de que hay disponibles de un fichero concreto que interese en una auditoría de seguridad.

Figura 2: ¿Cuántas copias únicas se pueden conseguir de un documento en Internet?

Localizar el número de copias únicas de un fichero en Archive.org

Si queremos saber el número de copias distintas que Archive.org tiene del fichero robots.txt en el dominio www.apple.com, podríamos pedir una URL concreta y ver la respuesta. En los resultados se aprecia que hay una buena cantidad de capturas de esa URL, pero si quiero saber el número de ellas que son únicas, entonces es más complicado, ya que en esa página de resultados no aparece. Sin embargo, si miramos los resultados de la Figura 1, podremos apreciar que The Way Machine, en el listado de los resultados sí que aparece el número de Copias Únicas, es decir, de copias de esa URL con información distinta, lo que me tendría que ayudar a saber exactamente el número de documentos diferentes.

Figura 3: Si pides la URL concreta no da la información de las copias únicas

Ese valor me permitiría saber cuántos son los documentos que necesito obtener para tener todo lo que se ha podido filtrar vía, por ejemplo, el fichero robots.txt de www. apple.com. Tened en cuenta que, vistos los ejemplos de ataques que se pueden hacer con un robots.txt que se explican en "No me Indexes que me cacheo", el contar con todas las copias de los ficheros robots.txt puede ayudar a localizar algún punto vulnerable de esa infraestructura.

Tras jugar con ello, he visto que resolver esto en Archive.org es sencillo, y no solo vale para resolver esta pregunta, sino para que de forma rápida permita localizar copias de los archivos cuando estos han sido filtrados. Para ello, en lugar de utilizar toda la URL en la petición, basta con pedir la URL con un asterisco en la extensión.

The Wayback Machine solo permite este comodín al final de la URL, por lo que se puede utilizar como extensión y localizar todas las copias de una misma URL pero que acaben de forma distinta, para sacar backups o indexación de la misma URL con distintos parámetros, lo que da bastante juego. Con esta información sería posible hacer un script que capturase ese valor de la Figura 4, y luego fuera recuperando archivos distintos en la primera hasta que se tenga los 28.367 archivos que hay que tener para estar seguros de tener todas las copias de esa URL disponibles en Archive.org.

Figura 4: Wayback Machine tiene 28.367 copias distintas de http://www.apple.com/robots.txt

Fugas de información por metadatos en documentos modificados

Por supuesto, esto también es perfecto para localizar las fugas de metadatos en copias de archivos ofimáticos que dan situaciones como las descritas en los casos de análisis forense de metadatos o simplemente para saber qué se modificó en documentos publicados en páginas webs. En este caso, con la mda.mil, es posible limitar la búsqueda a los documentos PDF del directorio de documentos y sacar el número de copias únicas de cada uno de ellos.

Figura 5: Copias únicas de documentos PDF de la mda

Como se puede ver, de los más de seiscientos que hay publicados, de algunos ha habido hasta 10 modificaciones a lo largo del tiempo, lo que más que probablemente dará más información al sumar el análisis de todos ellos que solo al analizar uno.

Saludos Malignos!

Un informático en el lado del mal

domingo, octubre 26, 2014

¿Cuántas copias históricas se pueden obtener de un documento publicado en Internet?

1 comentario: