viernes, mayo 10, 2019

Tu privacidad depende del control y borrado de datos, estados latentes, datos semi personales e “insights”

Cuando en los medios generalistas se habla de datos se tiende a pensar en un valor evidente para todo el mundo. Se suele tender a utilizar "Datos" refiriéndose a elementos de información entendibles por todo el mundo. Mi nombre, mis apellidos, la dirección de mi casa, mi número de documento nacional de identidad, mi sexo, edad, religión o dónde estoy en cada momento.

Figura 1: Tu privacidad depende del control y borrado de datos,
estados latentes, datos semi personales e “insights”

Estos datos son en torno a los que surgen la mayoría de las conversaciones. Son datos que se catalogan en diferentes niveles de confidencialidad o privacidad por todo el que habla de ellos. Y es fácil entender el mundo en base a eso. Sin embargo, los datos y sus derivados los "insights" son mucho más difícil de entender por el gran público.


Figura 2: You are where you are

Para explicar lo que os quiero contar, dejadme que use en todo este ejemplo los datos de Localización, que son los fáciles de entender por todo el mundo, y por ello os pido - si no lo habéis hecho ya - que veáis la charla que di en el año 2016 titulada "You are where you are", que me va a permitir explicar los detalles.

Datos

Si volvemos al tema de la charla de "You are where you are", cualquier app en tu smartphone que captura la localización - por cualquiera de los medios directos o indirectos que explico en la charla - de dónde estoy en tiempo real tiene acceso a un dato muy importante, que es la ubicación donde estoy en cada momento. Eso, puede ser un dato muy sensible, porque puede responder a una pregunta muy importante para alguien que te quiera encontrar en ese momento.
"¿Dónde estás ahora?"
Y eso afecta a tu Seguridad Personal si un atacante quisiera hacerte un daño físico y te estuviera buscado. Pero también afecta a tu Intimidad porque revela la ubicación en la que te encuentras ahora y eso tal vez no sea tu deseo.

Supongamos que ahora no teneos acceso a la ubicación en tiempo real, pero sí almacenamos los datos de ubicación del pasado cercano durante un tiempo - digamos tres días que para este artículo el tiempo es relevante - se podría responder a una pregunta diferente. Ya no se podría responder a la pregunta de "¿Dónde estás ahora?", pero se podría responder a "¿Dónde ha estado?", lo que podría afectar también a tu Intimidad.

Pero, ¿afectaría a tu Seguridad Personal? Pues en un grado sí, porque saber dónde has estado en el último momento da información de dónde puedes estar con cierta probabilidad. Y es aquí donde necesito que te pares un segundo para que veas que has hecho un salto grande en tu razonamiento.

Insights

Si has leído con calma hasta este punto, en el párrafo anterior has derivado un dato que es un hecho - "Dónde has estado" - en un dato que es una predicción - "Dónde puedes estar ahora", que por supuesto no es el dato medido como el de la ubicación en tiempo real que respondía al valor de "Dónde estás ahora". Has razonado, aplicando un algoritmo de analítica predictiva que puede ser simple, del tipo:
"Estará cerca de la última ubicación en el tiempo que tengamos ahora".
O mucho más complejo, formado por un algoritmo de Machine Learning que haya sacado patrones de movimiento de todo tu histórico para predecir tus hábitos de ubicación a lo largo del tiempo y saber que, tal vez, estés en una ubicación concreta por el horario que es, por ejemplo, tú casa durmiendo, aunque esté en una ubicación remota a la última ubicación en el tiempo que se tenga.

Eso se puede hacer porque gracias a la algorítmica avanzada se pueden ir generando insights sobre ti basados en tu localización. Muchos, muchos, muchos, como dejaba yo en las diapositivas que van desde la 14 a la 21 de la presentación.


Esos insights han sido procesados por un algoritmo que ha usado tus datos, y ha sacado información personal que tuya que tú no le has dado directamente, pero que realmente se la has dado al dejar a un sistema de Machine Learning acceder a tu ubicación en tiempo real o en pasado.

Datos "Semi"

Ahora que ya hemos visto esto, lo que tenemos que pensar es que, lógicamente, que le de a un sistema acceso a mi ubicación en tiempo real significa que le de esté dando en un porcentaje mi sexo, religión, lugar de mi casa, nivel económico, aficiones, hábitos de riesgo, estado de salud, etcétera.

Son los datos que yo llamo con los amigos, los datos "Semi-Personales", ya que un sistema que es una app que accede a mi ubicación para darme información de actividades culturales alrededor de dónde estoy, tendrá datos como mi sexualidad, nivel económico o estado de salud si, y solo si, genera esos inisghts a partir de mis datos de ubicación. 

Es decir, si no los procesa con un algoritmo para generar ese insight nunca tendrá esa info mía, pero... siempre podría hacerlo. Siempre podría generar ese insigh. Él, o cualquier otro de los partners a los que se haya dado acceso a esos datos en tiempo real o en almacenamiento.

Datos en estados latentes

Ahora vamos a jugar a hacer otra "Burbuja Financiera" haciendo productos derivados de los derivados, y jugamos a los Estados Latentes. O lo que es lo mismo, valores intermedios de datos mezclados con un algoritmo que no son tu religión, sexo, estado de salud, hábitos de riesgo o nivel económico, pero que, con máxima probabilidad, representan uno o varios datos mezclados de ese tipo porque son derivados de datos que pueden generar esos insights.

Sé que esto puede ser un poco difícil de explicar, pero imaginaos que tenemos un mapa de una ciudad dividida por sectores de 100 metros cuadrados. Y a cada uno de ellos le ponemos un valor del 1 al 100 en base al ruido que se ha recogido en esa ubicación con un sistema de IoT que ha puesto la SmartCity del ayuntamiento en cuestión. Llamemos a esto Matriz A.

Ahora supongamos con los datos históricos de navegación damos un peso a cada cuadrante con el tiempo que una persona ha pasado en él. Es decir, más peso si pasa más tiempo en ese cuadrante y menos peso si pasa menos tiempo en ese cuadrante. Mezclemos un poco más los datos de ubicación de la persona en cuestión, haciendo que el peso que recibe en cada cuadrante dependa de dos factores, como la hora del día, y el porcentaje de cambio entre esa ubicación y la anterior. Llamemos a esto Matriz B.

Y ahora cojamos la Matriz A y la Matriz B y generemos para cada usuario una matriz que llamaremos Matriz de Estados Latentes.

Esa Matriz de Estados Latentes, lo sepa o no lo sepa el usuario, sigue siendo como he explicado un derivado de su ubicación, de su forma de desplazamiento y de su actividad a lo largo del día, por lo que aplicada correctamente a un algoritmo podría dar todos la información de sexo, religión, lugar de residencia, nivel económico, etcétera. Pero es solo una matriz, con números, generada por un algoritmo como estado intermedio de algo. 

Control y Borrado

Y ahora vamos al punto final. Visto todo esto, hay que tener en cuenta que si una empresa tiene tus datos, puede generar tus insights y guardar esos insights de forma directa o como Datos Semi o Estados Latentes, que sería lo mismo que tener los datos guardados en formato claro.

Y  la pregunta es... ¿Si una app que accede a tu localización te permitiera borrar tus datos del pasado... se estaría garantizando que está borrando la información de tu orientación sexual, nivel económico o número de amantes que tienes? Pues espero que después de esta perorata tengáis claro que no. 

Que si quedan insighs, Datos "Semi" o Datos en Estados Latentes, tus datos ya procesados están ahí, con lo que se sigue almacenando y sabiendo todo de ti, incluso aunque tú tengas la ilusión de que estás borrando tus datos.

Figura 4: Manual de Machine Learning aplicado a Cibersegurdiad

Sé que el mundo es difícil de entender a veces para todo el mundo, pero es en el que estamos, y si trabajas con datos, privacidad o seguridad informática, debes conocer mejor todas las posibilidades. Yo os sigo recomendando el libro de nuestros compañeros de Machine Learning Aplicado a Ciberseguridad que te abrirá los ojos mucho con las posibilidades de este mundo que ya empieza a ser no el futuro, no el presente, sino el pasado.

Saludos Malignos!

2 comentarios:

Gobekli dijo...
Este comentario ha sido eliminado por el autor.
Gobekli dijo...

¿ Quis custodiet ipsos custodes?

Entrada destacada

Programa de Especialización "Inteligencia Artificial para Expertos en Ciberseguridad" 2ª Edición.

Hoy, en medio del verano, os traigo información de la 2ª Edición del   Programa de Especialización  de "Inteligencia Artificial para Ex...

Entradas populares