jueves, mayo 07, 2009

MetaShield Protector (II de IV)

*************************************************************************************************
Artículo Publicado en PCWorld Abril 2009
- MetaShield Protector (I de IV)
- MetaShield Protector (II de IV)
- MetaShield Protector (III de IV)
- MetaShield Protector (IV de IV)
*************************************************************************************************

El número importa

Como se puede ver, un simple documento puede generar una gran cantidad de información que, sea en el formato que sea, puede ser incómoda, peligrosa o delicada para la organización, pero…. ¿cuántos documentos publica una organización hoy en día? Basta con hacer algunas búsquedas a través de Internet para que sea preocupante.


Figura 4: Documentos ofimáticos fbi.gov

En la Figura 4 se puede ver como en el dominio fbi.gov se están publicando a día de hoy más de 4.800 archivos ofimáticos. Con que se sacara 1 dato de cada documento el volumen de información que se estaría haciendo pública de la organización sería enorme. Además, para la extracción masiva de metadatos en documentos ofimáticos existen herramientas como Metagoofil o FOCA, que permiten descargar masivamente archivos ofimáticos publicados en un sitio web y extraer de ellos toda la información.


Figura 5: FOCA

En la Figura 5 se puede ver a FOCA realizando un análisis de todos los documentos públicos del dominio novell.com.

Higiene de documentos

Para la higiene, limpieza o eliminación de metadatos e información oculta de los documentos ofimáticos existen diversas soluciones. Para aquellos creados con Microsoft Office, a raíz del asunto Tony Blair, se hizo pública un add-in para las versiones XP y 2003, que permitía limpiar de cualquier metadato o información oculta a los archivos de Microsoft Office. Esta herramienta se llama RHDTool y está disponible para descarga en la siguiente URL: RHDTool

Siendo conocido este asunto ya, en el paquete de Microsoft Office 2007, todas las herramientas cuentan con una opción de limpieza de documentos, accesible desde el menú Preparar. En la Figura 6 se puede ver como la herramienta busca y elimina todos los datos que puedan poner en riesgo la privacidad o seguridad del autor del documento.


Figura 6: Limpieza de documentos en MS Office 2007

Para las versiones de OpenOffice, aunque la herramienta trae opciones para minimizar la información que debe guardar el documento cuando se está trabajando con él, no elimina completamente toda la información sensible. Así, rutas a plantillas o impresoras no son eliminadas y se hace necesario utilizar una herramienta aparte, como por ejemplo OOMetaExtractor. Esta herramienta es gratuita y está bajo licencia OpenSource, con lo que es posible ser utilizada por cualquier usuario. Está disponible en http://www.codeplex.com/oometaextractor y permite, entre sus principales características, extraer todos los metadatos de todos los ficheros en formato ODF de una carpeta, la limpieza de todos los metadatos de todos los ficheros de una carpeta y el establecer una plantilla de metadatos genéricos para que aparezcan en todos los ficheros.


Figura 7: OOMetaExtractor

Para los ficheros PDF, el mismo paquete de Adobe Acrobat, en su última versión, ofrece herramientas para la limpieza de metadatos, pero, también se puede utilizar la herramienta exiftool para limpiar datos XMP en ficheros PDF.

Google y la caché

Además de limpiar de metadatos todos los ficheros que se encuentren publicados, debe ser necesario tener en cuenta que muchos buscadores, como por ejemplo Google, no sólo indexan el contenido de los ficheros sino que realizan una copia completa del mismo como se puede apreciar en la Figura 8.


Figura 8: Documentos en caché

Es por tanto necesario tener en cuenta que si se limpia un fichero de metadatos, este debe ser eliminado de la cache de Google también. Para ello, como se puede ver en la Figura 9, dentro de las “Herramientas para Webmasters” de Google disponibles en http://www.google.com/webmasters, hay una opción para eliminar URLs de la cache de google e incluso de la base de datos de indexación.


Figura 9: Eliminacion de URL

Problemas de publicación

Como se ha visto, existen soluciones para la limpieza y el análisis de metadatos en documentos ofimáticos. Sin embargo todas esas soluciones recaen en la aplicación manual de las herramientas de limpieza.

Supongamos un usuario que se encuentra trabajando con un documento ofimático y enviándolo periódicamente a publicar en la web. La única forma que tiene este usuario de estar seguro de que el documento está limpio es realizar el proceso de limpieza siempre que vaya a ser enviado fuera de su equipo.

Por el contrario, desde el punto de vista de un administrador de un sitio web que publica documentos ofimáticos en formato doc, xls, pdf, odt, ods o pptx, la única forma de estar seguro de que los documentos están limpios es revisándolos él uno a uno.

Al final, aunque existen soluciones para limpiar los metadatos y la información oculta, no son suficientes para poder establecer una política de seguridad confiable en la publicación de documentos. Es necesario automatizar este proceso.

*************************************************************************************************
Artículo Publicado en PCWorld Abril 2009
- MetaShield Protector (I de IV)
- MetaShield Protector (II de IV)
- MetaShield Protector (III de IV)
- MetaShield Protector (IV de IV)
*************************************************************************************************

1 comentario:

Anónimo dijo...

Eso no me sirve, yo solo uso Microsoft Windows Live Search, podrias hacer una versión del post para los que usamos Microsoft Windows Live Search.

Gracias de antebraso.

Entrada destacada

10 maneras de sacarle el jugo a tu cuenta de @MyPublicInbox si eres un Perfil Público

Cuando doy una charla a algún amigo, conocido, o a un grupo de personas que quieren conocer MyPublicInbox , siempre se acaban sorprendiendo ...

Entradas populares