lunes, septiembre 22, 2008

Metadatos en Microsoft Office (II de V)
por Enrique Rando y Chema Alonso

***************************************************************************************
Artículo publicado en Windows TI Magazine nº 135 Septiembre de 2008
- Metadatos en Microsoft Office (I de V)
- Metadatos en Microsoft Office (II de V)
- Metadatos en Microsoft Office (III de V)
- Metadatos en Microsoft Office (IV de V)
- Metadatos en Microsoft Office (V de V)
***************************************************************************************

Propiedades del documento

Cuando se crea un documento, éste puede ser catalogado con meta-información de forma explícita, es decir, el creador del documento puede marcar una pequeña descripción, palabras clave de búsqueda, un departamento o lo que buenamente considere oportuno o útil en su organización. Esta información queda guardada de forma permanente. Si un documento con meta-información es utilizado como base para generar otro, esta información va a perdurar.

Imagen 3: Propiedades de documento en Microsoft Word 2007

Es importante remarcar que los metadatos de un documento pueden ser personalizados y, por tanto, pueden tener cualquier atributo que el autor haya querido añadir. Esto puede convertirse en un problema cuando se hacen públicos documentos generados en un entorno corporativo, ya que un metadato inapropiado puede perjudicar la imagen de la organización.

Ficheros Incrustados

Los documentos Microsoft Office permiten desde hace mucho tiempo incluir imágenes, tablas de Excel u otros documentos Microsoft Office y de terceros. Todos esos documentos vienen acompañados de sus propios metadatos y, si no han sido correctamente limpiados, pueden ser un foco de divulgación de información no deseada.

En el siguiente ejemplo se crea una imagen con GIMP, un editor de documentos gráficos. Dicha imagen tiene información EXIF que puede ser leída con cualquier lector de EXIF. En la siguiente figura se puede ver cómo la imagen tiene un atributo de los metadatos que marca el programa que lo ha generado y la existencia de una miniatura (thumbnail) dentro del propio archivo.

Imagen 4: Archivo gráfico con Información EXIF leído con ExifReader

Esta imagen se va a incrustar dentro de un documento de Microsoft Word 97 utilizando la opción de Insertar imagen desde archivo. Una vez que el documento está generado se puede acceder a dicha información leyendo el documento con un editor Hexadecimal y, como se puede observar en la siguiente imagen, se puede ver el valor de esas propiedades.

Imagen 5: Acceso a la información EXIF con HxD

Desvinculado de ficheros gráficos incrustados

La tarea de recuperación puede ser mucho más fácil si se decide desvincular todos los ficheros incrustados. En los ficheros de Microsoft Word .doc, de Microsoft Excel .xls o de Microsoft PowerPoint .ppt, esta tarea puede ser tan simple como guardar el documento como página web. Así, el propio paquete de Microsoft Office realiza por nosotros un análisis de los ficheros gráficos incrustados y los genera en ficheros independientes.

Imagen 6: Desvinculado de ficheros gráficos en documentos .doc convertidos a HTML

Como se puede apreciar la información EXIF se mantiene intacta y se puede observar cómo, en este ejemplo, el fichero incluía una miniatura de apariencia distinta a la propia imagen.

Este comportamiento (preservar la información EXIF) se va a repetir en todas las versiones hasta Microsoft Office 2003, incluido. En ellas sólo se pierde la información EXIF de la fotografía si se utiliza la opción de Modificar Imagen y se guardan los cambios.

En el formato de fichero de Microsoft Office 2007, llamado OOXML o ISO DIS 29500, los formatos .docx, .xlsx y .pptx son ficheros comprimidos ZIP que guardan los archivos incrustados como elementos independientes, por lo que la extracción de los ficheros es una tarea trivial, pero, en este caso, los archivos gráficos son convertidos a formato PNG sin pérdida y limpiados de metadatos.

Imagen 7: Desvinculado de ficheros gráficos en OOXML

***************************************************************************************
Artículo publicado en Windows TI Magazine nº 135 Septiembre de 2008
- Metadatos en Microsoft Office (I de V)
- Metadatos en Microsoft Office (II de V)
- Metadatos en Microsoft Office (III de V)
- Metadatos en Microsoft Office (IV de V)
- Metadatos en Microsoft Office (V de V)
***************************************************************************************

1 comentario:

Mikelats dijo...

Para versiones antiguas de Office en este sitio de Spectra hay alguna información sobre como quitar algunos de los metadatos.

Saludos.

Entrada destacada

MyPublicInbox: Perfiles destacados por categorías #MyPublicInbox @mypublicinbox1

Cuando se conceptualizó la plataforma de MyPublicInbox se pensó en un entorno que permitiera que los perfiles públicos recibieran comunica...

Entradas populares