domingo, septiembre 05, 2021

Te haría gracia pero no es verdad: El algoritmo de AliExpress NO lo sabe todo @aliexpressES

Este verano, el equipo de redes sociales de AliExpress España se cubrió de gloria con un bonito Tweet en el que, tras la queja de una usuaria de su plataforma por haber recibido como recomendación una prenda de ropa interior concreta, le contestaba con un "Podéis engañar a vuestros seguidores, pero no a nuestro algoritmo". Risa, cachondeo, alboroto, jajaja, millones de retweets y likes, comentarios y viralización de un meme

Figura 1: Te haría gracia pero no es verdad:
El algoritmo de AliExpress NO lo sabe todo

Ataque público a la persona que denunció esa recomendación del algoritmo que la llevó a recibir todo tipo de comentarios jocosos e hirientes por culpa de este contraargumento del Community Manager de AliExpress España, que uso a una persona para hacer una campaña de marketing brutal, ya qu hizo un Quote Retweet para sacarlo en su Time-Line y no un Reply al mismo para explicarle por qué el algoritmo habría seleccionado ese producto y cómo podría controlar los insights. Eso no lo hizo.
Éxito total para el equipo de redes sociales de AliExpress España que supo hacer de un fallo de su sistema un giro argumental al más puro estilo de debates tertulianos y poner el foco de atención en otro lugar que no fuera el realmente importante: El algoritmo de AliExpress de recomendaciones NO ES PERFECTO y hace recomendaciones equivocadas en casos personales. Pero es que ni ninguno es perfecto, y por eso es injusto que no se auditen ni le permitan al usuario conocer las etiquetas que le han puesto, pedir que se eliminen, modificarlas e incluso más diría yo.

Dejadme ahora que me explique.

Los algoritmos de Machine Learning - que nosotros usamos en Ciberseguridad - y que estamos utilizando todos los días en sistemas de e-commerce y recomendación se basa en procesar datos de los usuarios, datos de los productos, datos del histórico de la plataforma, datos de terceros que nos traen información de los dispositivos, hábitos, tendencias, datos de todo lo que creemos que de forma directa o indirecta en el comportamiento de un comprador. Puede ser que decidamos que lo que un usuario vea en la televisión o en Youtube influya en su estado de ánimo y por tanto tenga tendencia a comprar mejor uno u otro producto, y por tanto metamos los datos de visualización de esos vídeos también en la coctelera. O puede ser que no tengamos acceso a esos datos y no los metamos. Such is life! Datos... ¿cuántos? ¿cuáles? 

Figura 3: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Es decir, al final tenemos un universo infinito de datos que podrían influir en que una persona comprara o no un látigo para amantes del BDSM. A lo mejor ha estado hablando con algún amigo que ya lo ha comprado. Si tenemos los datos de con quién habla por WhtasApp podríamos saber si ha hablado con alguien que ya haya comprado ese producto. Pero para eso necesitamos tener los datos de la agenda de WhatsApp. Y, por qué no, las conversaciones. ¿Las tendrá el algoritmo de AliExpress? Probablemente no.

Es decir, lo que trato de explicar en esta primera parte es que lo que motiva a una persona a querer comprar algo es de una complejidad tan grande como la de entender la mente de las personas. ¿Tenemos ese nivel de comprensión hoy en día? La verdad es que no, no lo tenemos. 

Pero en el mundo del Machine Learning tenemos una manera de aproximarnos un poco a ella. Empezamos con las estadísticas clásicas por pocos datos, por ejemplo edad para aproximar la predicción del número de accidentes que va a tener conduciendo. Así decidimos que los menores de 30 tiene una tasa mayor de accidentes en los últimos tres años y hay que ponerle un precio mayor al seguro que a los de mayores de 30 años que tiene una tasa de accidentes menor.

¿Es perfecto ese algoritmo? Por supuesto no.

Habrá casos en que un joven tenga menos accidentes que en el otro. ¿Cómo lo hacemos más ajustado? Pues metiendo más datos. Datos como años de carnet, kilómetros recorridos al año pasado, profesión, sexo - perdón por meterlos, que es un tema de sesgo claro, pero se hace en el análisis de seguros aunque me parezca mal -, lugar de trabajo, estudios, tipo de trabajo, tipo de vehículo, horario de trabajo, estado civil, número de personas a su cargo, familiares, actividad en el mundo de las redes sociales, salario anual, películas que le gusta en la tele, vídeos que ve en Youtube, gustos, aficiones, qué tipo de cosas compra en el la web...

Seguro que algunos de esos datos os parecen evidentes, y otros no tanto, pero por muchos tipos de datos que tengas, al final llegarás a tener un grupo formado por un número de elementos mayor de uno. Es decir, que no está ajustado a la persona.  Imaginemos que en el ejemplo que he puesto para predecir los accidentes hemos sido capaces de dividir a toda la población humanas en grupos, siendo el más pequeño de ellos, por ejemplo, de 10 personas. Es decir, hemos sido capaces de dar tantos datos que el grupo más granulado de personas, con solo 10 personas, tiene una predicción de 2,37 accidentes por año.  E imaginemos que después de un año ha acertado. Hay 2,37 accidentes en ese grupo. El algoritmo ha acertado, pero a costa de errar en las personas.

Por supuesto, no se pueden tener 2,37 accidentes. Se puede tener 0, 1, 2, 3, 4, etc... pero siempre números enteros. Da igual, la predicción acertará en unos individuos y en otros no, pero en el grupo - que es lo que le importa al negocio - Sí, y eso es suficiente. Esto quiere decir, que es lo que nosotros hacemos hoy en día en los algoritmos de ML, que sabemos que si ponemos nuestro dinero en un modelo de negocio que garantice que el resultado de la predicción sea correcto, podremos estar seguros de que tenemos el retorno de beneficio.

Es decir, que si hacemos grupos a los que enseñar látigos o ropa sexy  - porque tenemos el objetivo de sacar del stock ese producto por culpa de otro algoritmo - y usamos un algoritmo de ML con muchos, muchos, muchos datos, podemos predecir que vamos a tener un 3,27 % de compra, porque hemos metido elementos que en base a los datos que tenemos podrá garantizar al algoritmo ese resultado en media. Así que tendremos un total de 96,73 % de usuarios que no comprarán ese producto.

¿Por qué?

Pues por muchos motivos. Puede que haya fallado en los datos de catalogación del producto y en los datos de catalogación de las personas - que sucede muchas veces y el algoritmo predice mal -, puede que falten datos que influyan en la compra ese día - el clima, día del calendario, crisis mundial, pandemia, problema económico, comienzo del curso escolar - pero que sí que hubiera acertado en que al usuario le podría interesar el producto, o puede... que el algoritmo no haya acertado en la predicción de ese individuo. 

Así que, en la elección de los usuarios a los que se pone un producto para incrementar su venta, pueden estar usuarios que podrían comprar ese producto en otras circunstancias pero que vayan con él, o usuarios que no comprarían ese producto jamás porque no van con él. El algoritmo no es perfecto. Pero en media es mucho mejor que poner recomendaciones aleatorias, o recomendaciones basadas en los datos solo del producto. Meter un algoritmo que haga recomendaciones en base a lo que sabe de la persona incrementa las ventas, pero no eso no hace al algoritmo perfecto, ni mucho menos, ni puede garantizar que haya catalogado correctamente a la persona.


Figura 4: Cibersegeruidad y Sociedad: Tecnología Humanista e Insights

De esto, ya os hablé en el año 2019 largo y explicado en el artículo titulado "La generación exacta o inexacta de insights o cómo me llegan anuncios de mi sexualidad" donde os explicaba cómo el algoritmo de Google en Youtube tenía que lidiar con predicciones sobre mí en base a que comparto mi Youtube con mi niña pequeña, y puede que eso... le confunda. Por eso, en mi charla de "Ciberseguridad y Sociedad", cuando hablo de las etiquetas que como insights no ponen los algoritmos de Machine Learning, pueden ser malas para las personas, y por eso hay que trabajar en exigir que haya control en el impacto que estos tienen en cada uno de nosotros.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

Programa de Especialización "Inteligencia Artificial para Expertos en Ciberseguridad" 2ª Edición.

Hoy, en medio del verano, os traigo información de la 2ª Edición del   Programa de Especialización  de "Inteligencia Artificial para Ex...

Entradas populares