domingo, marzo 13, 2011

El filtro SafeSearch, la DigiFOCA y el Google Hacking

Pensando en el post de ayer sobre el filtro SafeSearch y el contenido indexado me asaltó la duda sobre cómo realiza la FOCA las búsquedas de documentos, si utiliza el filtro SafeSearch o no. Tras hacer una pequeña prueba se puede ver que FOCA no pone ninguna opción de SafeSearch, con lo que está utilizando la configuración por defecto, que creo que es moderado - no estoy seguro porque lo he tocado tantas veces ya en mi equipo que... -.

El caso es que se me ocurrió pensar si tal vez nos quedamos sin algún documento por el mero hecho de hacer las búsquedas con el valor de SafeSearch por defecto. La verdad es que puede ser que sí, si por el simple hecho de que el filtro funcione mal, un documento es catalogado con un nivel de contenido Violento, Porno, o de contenido inapropiado, podría quedarse fuera del proceso de Google Hacking.

Con la mosca detrás de la oreja, decidí buscar documentos en algunos sitios con el filtro SafeSearch activado y desactivado, a ver que ocurria... y lo que pasa es un autentico cachondeo.

Primero probé en Microsoft.com con el filtro desactivado y activado. Tal y como se puede ver en las siguientes imágenes, hay unos 100 documentos PDF que están catalogados con contendio que no sale en los resultados de búsqueda.


Figura 1: Búsqueda de PDFs en Microsoft.com con SafeSearch activado


Figura 2: Búsqueda de PDFs en Microsoft.com con SafeSearch desactivado

Es cierto que Google sólo nos va a mostrar los 1.000 primeros resultados, pero para evitar esto, en la DigiFOCA metimos la opción de búsqueda de documentos por servidores en los Huge Domains.

Luego lo probé en Google.com y el resultado fue más o menos el mismo, si lo buscas datos con el SafeSearch activo te pierdes documentos en el camino.


Figura 3: Búsqueda de PDFs en Google.com con SafeSearch activado


Figura 4: Búsqueda de PDFs en Google.com con SafeSearch activado

Sin embargo, el resultado más curioso lo obtuve cuando probé con Army.mil. Resulta que hay más documentos cuando activas el SafeSearch que cuando no. ¿Cómorl?


Figura 5: Búsqueda de XLSs en army.mil con SafeSearch activado


Figura 5: Búsqueda de XLSs en army.mil con SafeSearch desactivado

Pues no tengo ni idea de por qué pasa esto, lo cierto es que es un cachondeo desde el punto de vista de Google Hacking, y por lo tanto parece que habrá que repetir las búsquedas con los dos filtros y comprobar si se devuelven más o menos resultados con una o con otra.

Además, no olvidéis que si estáis lanzando la FOCA detrás de un fiewall que fuerza búsquedas SafeSearch os están mediatizando los resultados.

Saludos Malignos!

6 comentarios:

tayoken dijo...

Está claro que el algorítmo de cálculo de resultados de google no es más que una estimación ya que saber el número exacto sería muy costoso para el dato que ofrecen, que sólo sirve para un google-fight :D.

Sin saber cómo funciona, me puedo imaginar que para mostrar el total de resultados harán la búsqueda de coincidencias para mostrar la primera página, y según lo que le haya costado (en tiempo) encontrar los suficientes resultados para mostrar esa primera página, calculará cuántas debe haber.

Así pues, el hecho de tener que evaluar (por tener el safesearch activo) si una página "matchea" con sus criterios o no, haría que el tiempo de búsqueda se relentice y que falsease los datos, así que hay que recalcularlo para afinar el número total de resultados, está claro que "no pueden" saber cuánto ha perjudicado SafeSearch exactamente en el coste de búsqueda y entiendo que ahí es donde está el error.

Supongo que aplicarán un factor de corrección para eliminar el posible error que provoque el "filtro", de manera que ese factor de corrección no es 100% afinado...

Pero joder, se acerca mucho ;)

vaya chapa y encima inventada.

Maligno dijo...

@tayoken, como explicación es buena, si es así eres un crack. :)

Anónimo dijo...

Hola, el blog es increíble, felicidades a todo el equipo...
Tengo 17 años y me gustaría saber cómo empezar en todo este mundillo, ya que me parece increíble todo lo que se puede llegar a hacer. Estoy haciendo un módulo de informática y mis conocimientos son más que básicos, pero no amplios; no sé programar y desgraciadamente ni lo tocamos en el temario, es vergonzosa la educación informática que se da actualmente. Solo aplicaciones ofimáticas y como mucho directorios y raíces... eso es lo más 'avanzado'. De vergüenza.

Pero bueno, perdón por la chapa, lo que me gustaría saber, resumiendo, es cómo empezar con todo esto. Un foro, tutoriales... cualquier cosa que me podáis facilitar... ¡Gracias!

Anónimo dijo...

@Anonimo en los foros de elhacker.net tienes material para hacerte una tesis doctoral.
Yo te recomiendo que empiezas estudiando como funcionan las redes, es decir como se cocentan dos ordenadores. Y aun mas urgente si quieres iniciarte en la seguridad informatica es aprender a programar.

PD: Nunca te dejes guiar por el mal, divierte pero no le toques las narices a nadie xD

Madrikeka dijo...

@Anónimo el del módulo.
Imagino que dependerá del sitio donde lo hagas, yo tengo el ASI desde hace 3 años y me enseñaron a programar en C (Windows y Linux),algo de batch, S.O, tanto windows como Linux, BBDD con ORACLE y redes (el CCNA), por lo que salí bastante bien "entrenada".

Si utilizan el temario real que hay para el módulo si, es una verdadera mierda (con perdón) pero si vas a un buen instituto con su "propio" catálogo aprenderás bastante.

Ahora por ejemplo, en mi antiguo instituto están certificando para algo de HP.

Si eres de Madrid, en sitios como dreamsoft, están dando cursos gratuitos de seguridad, que te pueden ayudar a comenzar o saber hacia donde dirigirte, vamos, darte una base para ya dedicarte al autoapredizaje.

Y respecto a la programación, hay muchos cursos gratuítos que igualmente te dan una base.

suerte!!

Sursum Corda dijo...

Como siempre, muy interesante. Lo he enlazado, espero que no te importe.

Gracias.

Entradas populares