viernes, abril 06, 2018

Cambridge Analytica no es ni siquiera la puntita del iceberg en el mundo de hoy

El impacto que Cambridge Analytica está teniendo en los medios de comunicación es altísimo, y a mí, personalmente, no hace más que sorprenderme lo escandalizados que están por un caso que no llega a ser ni la punta del iceberg de las bases de datos que existen en el mundo. Ahora se habla de que Cambridge Analytica utilizó una app en Facebook para hacer WebScrapping, que no es más ni menos que, usando las credenciales que un usuario le daba a la app, capturar toda la información que ese usuario puede tener en Facebook, es decir, amigos, mensajes de amigos, comentarios, lo que sea. Datos y más datos.

Figura 1: Cambridge Analytica no es ni siquiera la puntita del iceberg en el mundo de hoy

Lo cierto es que las bases de datos hechas con WebScrapping son cuasi infinitas y de esto ya hablé hace dos años, pero hoy está más actual que nunca. No sé ni cuantas de los millones de apps que hay en todas las redes sociales como Facebook, Twitter, en todos los markets de apps móviles para Android y Google, en todos los markets de apps para smartphones, en los markets de apps para SmartTVs, en los markets de plugins para navegadores como Chrome o Firefox, en los markets de apps para Windows u OSX, o en los markets de plugins para plataformas CMS/eCommerce Web tipo Magento, WordPress, Bloggger, Joomla!, Whatever o en los canales de anuncios que se ponen en la web, estarán capturando datos para crear bases de datos, pero sí puedo estimar cuántas NO están cogiendo datos: muy pocas.


Figura 2: Merece pagar el mundo online con nuestra privacidad?


Estamos en la era del Big Data y el Data Scientist. La generación de algoritmos y procesos basados en Machine Learning para la toma de Data-Driven Decisions es el día a día.  Los sistemas de Inteligencia Artificial están entrando a toda velocidad en las empresas, en nuestra sociedad. En los rincones más insospechados de nuestra vida. Hemos pasado de hacer cosas "Smart" con automatismos digitales, a que esas cosas "Smart" aprendan a predecir y tomar decisiones teniendo en cuenta los datos del pasado y lo que les viene nuevo con "Machine Learning" para que constantemente evalúen su aprendizaje de una manera continua con algoritmos de Deep Learning.

Y para todo eso, hacen falta datos. 

Así que, además de necesitar muchos Data Scientist que están creando algoritmos para sacar lo máximo de los datos, tenemos a grandes cerebros pensando cómo obtener los datos y meterlos en los famosos Data Lakes. Datos, que aunque no lo creas, dicen mucho de ti.


Figura 3: Big Data y Privacidad

Capturar esos datos es fundamental. Por eso comenzaron a aparecer servicios gratuitos que dan cosas gratis a cambio de los datos. Y muchos lo sabían. Famosa es la frase de:
"Si no pagas por el producto, tú eres el producto". 
Claro que se está pagando. Se está pagando con datos. Datos que se monetizarán de muchas formas. Esto lleva a una serie de preguntas que todos deberíamos hacernos.

1.- ¿Qué estoy entregando?

Para los usuarios no está claro muchas veces qué están entregando. En mi última charla en Talent Land me iba a la página de UBER dónde se explica qué datos se están recolectando, y es un poco de broma ver cómo se usan términos genéricos e imprecisos como "Datos de tu dispositivo", "Otra información sobre tu Sistema Operativo" o "Quizá" o "En ciertas regiones".

Figura 4: Información de UBER sobre recolección de datos

No hay cosa más imprecisas que esto. ¿Datos de tú dispositivo? ¿Te llevas mi marca y modelo? ¿o cada movimiento que hago con los sensores y cada vez que pulso?. ¿Quizá? ¿Eso es un sí o es un no? ¿En ciertas regiones? ¿En cuál? ¿En la mía sí o no?

Figura 5: Más info. Aún queda mucho más.

2.- ¿Es justo el intercambio de valor?

Es decir, cada usuario debería plantearse si está recibiendo el valor adecuado para el valor que está entregado. Algo bastante "unfair" para muchos usuarios que no tienen conciencia del valor que tienen lo que están entregando. En el caso de UBER se habla de Location, y parece que tiene sentido. Es necesario entregar la localización para las rutas y el servicio, pero... ¿lo usan para más cosas? Aquí tenéis una charla en la que se explica "el valor de la localización".

Figura 6: You are where you are

Si el usuario no está informado, la negociación será siempre a perder. Será como negociar con alguien que no sabe qué vale lo que tiene.

3.- ¿Para que lo utilizan?

Aquí viene la parte diferencial. Yo creo que el usuario, informado, debe ser libre de elegir si tiene valor, pero estamos en una sociedad donde la tecnología puede usarse para cosas buenas y cosas malas. Yo creo que los datos pueden enriquecer nuestra vida. Creo que se pueden dar infinidad de usos positivos a los datos, pero por desgracia también se pueden dar muchos usos negativos.

Figura 7: Estudio sobre Fake News y Elecciones USA

El caso del Big Data, sumado al de Fake News, ha demostrado que se pueden manipular sociedades y cambiar el curso de la historia de un país por haber conseguido explotar debilidades en la educación de las personas o debilidades humanas para conseguir manipular una opinión. Cambiar un en un No, o un presidente por otro.

Y ahí da miedo.

El asunto es que en una política de privacidad puede decir que la información se va a compartir con terceros, con lo que ya se está dando el derecho a vender tu info a cualquiera. Se acabó. Puede acabar en cualquier BigData que no pensabas. En Europa el GPDR está intentando controlar estos usos,  pero si vamos a las tecnológicas en USA, la realidad es bien distinta.

Por supuesto, mi preocupación es que si el usuario no está informado de cómo funciona esta economía de los datos, lo que veremos es que las personas darán que sí a todos los consentimientos que las empresas van a pedir de forma masiva y se pueda convertir en algo como
"Sí, acepto las cookies. Si acepto dar mis datos para todos esos casos de uso que me estás explicando detalladamente y no entiendo. Sí, quiero activar el Applet de Java."

4.- ¿Van a cuidarlo?

Esta es la última de las importantes. De nada sirve que tenga valor el intercambio, que sea justo, que se vaya a utilizar para negocios con las que estamos de acuerdo si luego no la van a proteger. Que Google permita que sepan cuáles son tus dispositivos móviles, o que Paypal de la mitad de tu número de Teléfono o que se pueda saber si estás dado de alta en una red social de contactos adultos, son filtraciones de información que deben evitarse, porque luego se puedan automatizar y acabar engrosando los Big Data de empresas que lo pueden utilizar para cosas que no queremos como individuos y como sociedades.

Figura 8:Correlación de datos entre properties de Facebook

No olvidemos que los datos no solo se "entregan" por medio de servicios evidentes. Para muchos usuarios, entrar a navegar en una página web es algo natural y no piensan en la cantidad de códigos JavaScript que pueden estar capturando información de su navegación. Desde la identificación mediante Webbrosing Fingerprinting, hasta el perfilado de los hábitos de navegación por el que tuvo problemas Facebook en Europa (o el cruzado de datos con WhatsApp) hasta el tracking de advertising para perfilado de personas que hacía Google en su negocio de publicidad.

El negocio

Muchos usuarios han pensado siempre que el objetivo final son los Relevant Ads, y por eso permiten cosas tan curiosas como la que se muestra en esta tira de cómic que representa un poco lo que sucede con redes sociales y servicios online. Con los datos que se capturan, el perfilado es tan fino que lo que aquí parece una broma es aún mucho peor.

Figura 9: El negocio de los ads relevantes

Y durante mucho tiempo esto a la gente le ha parecido bien. Recuerdo no se cuántas veces que contaba como Gmail se leía el contenido del correo para poner Ads, dándose situaciones tan ridículas como que un ataque de Phishing que se saltaba el filtro Anti-Spam forzaba la publicidad de ads de la compañía atacada.

Figura 10: Phishing más ad

Y el famoso vídeo de Gmail Man en el que Microsoft intentaba marcar la diferencia entre un servicio de correo con privacidad y un servicio de correo que pagas con tus datos para hacer ads "más" relevantes. Pero a nadie le ha importado. Nota: A día de hoy Gmail ha dejado de hacer esto.

Figura 11: GMail Man parodia

Y es que el mundo es el que es. Está regido por datos. Siempre cuento que cuando fui a mi querida Escuela de Informática de la Universidad Politécnica de Madrid, la que me hizo un estudiante feliz cuando me nombró Embajador Honorífico.


Figura: Discurso de la servilleta

Como conté en mi "discurso de la servilleta", me especialicé en Bases de Datos y no en Seguridad Informática. En ese proceso de aprendizaje me definieron una Base de Datos de la mejor forma posible, como un:
"Conjunto de información útil accesible en tiempo útil"
Me encantó. Hoy en día el conjunto de información útil ha demostrado que puede ser casi infinito, y la restricción de accesible en tiempo útil, gracias a las tecnologías de Big Data y el Cloud Computing, se ha cuasi eliminado. Hagamos cosas buenas para la sociedad con los datos.

Saludos Malignos!

3 comentarios:

Unknown dijo...

Pues eso pensé yo cuando casi meten en la hoguera a Mark..que todo está más que pensado, hecho a conciencia y llevado a la práctica para ganar con nuestros usos digitales..y sin darnos cuenta. Porque claro no hay educación digital o no interesa que la haya..porque sino seguramente no ganarían tanto

Unknown dijo...

Buen día,

Considero que es necesario continuar realizando esfuerzos en pro de mejorar la educación y conciencia digital; por medio de la cual las personas podamos identificar la importancia de nuestra información, buenas prácticas de leer las autorizaciones de uso de los datos de los proveedores de servicio y hasta las leyes que existen para proteger la información personal.

En un ecosistema digital todos somos responsables de lo que suceda en el y más aun de la información que estamos dispuestos a compartir entendiendo el uso que se le va a dar cuando accedemos a un servicio y más si es gratuito...

Vamos a ver que más sucede... :)

Unknown dijo...

Interesante amigo, tal vez les suene iluso y hasta cierto grado inocente pero tengo algo de fe en la GDPR para que al menos solucione lo tedioso e imposible ye es entender que van a hacer con tus datos en el "uso de términos y condiciones" saludos amigo y gracias por la info

Entrada destacada

Programa de Especialización "Inteligencia Artificial para Expertos en Ciberseguridad" 2ª Edición.

Hoy, en medio del verano, os traigo información de la 2ª Edición del   Programa de Especialización  de "Inteligencia Artificial para Ex...

Entradas populares