martes, agosto 10, 2021

Por defecto puede ser eso: "Un Defecto". The Best Tennis Player & The Black Falcon

Hace poco tuvimos un pequeño debate en mi grupo de amigos sobre los resultados editoriales de los buscadores. Es decir, de los que salen editados, con cuadros, con gráficas, con listas, etcétera. Cuando una determinada pregunta se realiza mucho en un buscador, los resultados que se muestran suelen ser "curados". Suelen sacar maquetaciones especiales y no solo una lista de resultados todos iguales. 

Figura 1: Por defecto puede ser eso: "Un Defecto".
The Best Tennis Player & The Black Falcon

Por ejemplo, si buscamos "superhéroes de Móstoles" en Bing o en Google, veremos que como es una consulta no muy demandada, no se ha elegido una maquetación especial para los resultados, y lo que obtenemos son solo listas de resultados, junto con algo de información de la ciudad de Móstoles.

Figura 2: Resultados no "curados" de una consulta

No se ha "curado" de forma especial la información que da con algún formato especial, como  una lista de superhéroes de Móstoles, que seguro que los hay, creados por algún ilustrador, dibujante, escritor o apasionado de la ciencia ficción y la magia de los superhéroes.

Figura 3: Resultados curados de una consulta

Si hacemos la misma búsqueda, pero en New York, vemos que Google ha "curado" los resultados extrayendo una lista de uno de los resultados de la consulta, haciendo a la información de un resultado "la más relevante" y "destacada" de esa búsqueda. De hecho, como esa información está ya en los resultados, es probable que el usuario ya ni navegue a la página de la que Google extrajo esa información. Es decir, podríamos decir que en cierto modo... Google le "robo" la visita, que seguro que muchas veces os ha bastado con esos resultados "curados" sin que hayáis visitado luego la web donde estaba esa información. Se acabó el click-bait para ese resultado.

¿Y si los curados tienen preferencias?

Cuando ante una consulta común, el buscador, ya sea Google o Bing, decide dar unos resultados curados, es porque es la información más, más, más, más ajustada a lo que buscas de lo publicado en Internet - lo cuál ni tan siquiera quiere decir que sea veraz -, pero para los visitantes esa lista se convierte casi en ley. El "callabocas" lo llaman algunos de mis amigos a Google

Figura 4: Who is the best male tennis player en Google

Así, por ejemplo ante una discusión sobre quién es mejor Rafa Nadal o Djokovic, podemos buscamos por el "mejor tenista masculino" en Google o Bing, vemos que nos muestran resultados curados basados en la lista de puntos ATP. Arriba en Google, y abajo en Bing, con resultados curados en ambos casos.

Figura. 5: Who is the best male tennis player en Bing

Algo parecido sucede cuando se solicita lo mismo pero para tenistas femeninas. No es que den los mismos resultados, el punto en este artículo es que han decidido "curar" la página de resultados con información de uno en concreto para asociar como el más relevante a esa pregunta.

Figura: Who is the best female tennis player

Y lo mismo sucede en Bing, pero como veis, no están eligiendo los mismos resultados. No se trata de eso. Se trata de que en ambos casos están "curados"

Figura 6: Who is the best female tennis player

Y ¿cuál es el debate?, diréis. Pues bien, que si hacemos la misma búsqueda en Bing y Google, pero no le indicamos si es "female" o "male", los dos buscadores han decidido "curar" resultados de hombres, relegando a las tenistas a la lista general de resultados.

Figura 7: Who is the best tennis player en Google

El debate que subyace es el de siempre. Se entrena a un algoritmo de Inteligencia Artificial para que seleccione el resultado que se ajusta más, y se entrena con muchas cosas. Con preferencias del usuario, con interacciones con los resultados, etcétera, pero al final, se curan los resultados extrayendo información de uno concreto.

El Genero por Defecto

Esto me recordó a cuando en la serie de "Falcon & Winter Soldier" un niño por la calle le dice que es el "Black Falcon" y él le responde que es solo "Falcon" con un ejemplo fácil, ¿eres tú un "Black Kid"? En la serie hacen referencia a que durante los primeros años la raza por defecto de los superhéroes era hombre y blanca, si no se decía nada, blanco y luego ya venía la raza "negra" con el "Black" delante, como "Black Goliath" o "She" como She-Hulk.

Figura 8: Falcon y el género por defecto de los superhéroes

Por supuesto, entiendo por qué salen esos resultados. El problema es que el que escribió el artículo que sale "curado" en los resultados, uso un género por defecto, igual que Falcon se quejaba de que se usara raza por defecto y él estuviera obligado a poner "Black Falcon". Así, el titular, a pesar de que solo habla de tenistas masculinos, ha omitido el género. Ha hecho un "genero" por defecto, algo que en nuestra prensa deportiva es muy común, y creo que nuestros periodistas podrían ayudarnos a corregir este problema. Si un artículo es de los "10 mejores tenistas de la historia", debería tener los 10 contando los dos géneros, y no sólo hacer una lista de tenistas de un solo género por defecto.

La pregunta es, si tenemos una consulta en la que no se especifica el género, como "Tennis Player"... ¿no deberían los buscadores "curar" los resultados para "male" y "female" juntos? Lo cierto es que podría existir un documento que mezclara los dos géneros, y por eso no usa el género en el título o contenido. Pero si hay cualquier tipo de "curado" editorial... no se debería hacer cayendo en el error del género por defecto. Esto llevó a que Andy Murray tuviera que corregir a un periodista justo por este tema.
En mi opinión personal, el dejar de pensar que hay un "genero" por defecto debería ser el camino, y se debería evitar "curar" resultados con género por defecto - igual que con raza por defecto, con nacionalidad por defecto, etcétera - no ayuda.  Pero además hay mucho que debemos hacer, como es dejar de pensar con género por defecto, escribir artículos en blog u online con género por defecto, o, y esto es algo fácil que podemos hacer todos, "buscar sin género por defecto", "educar sin género por defecto", "premiar a los artículos sin género por defecto", pues al final, los titulares se crean intentado que les llegue mucho tráfico, y si aciertan con lo que buscan las personas, se ven premiados. 


El gran problema, es que estos datos que generamos son los que alimentan a los algoritmos de inteligencia artificial basados en datos masivos, y son los que acaban por generar esos sesgos que aparecen en los traductores o en los sitios más insospechados, pues si entrenamos a una IA con datos con sesgo, con sesgo aprenderá.

¡Saludos Malignos!

No hay comentarios:

Entrada destacada

Singularity Hackers: Para descubrir el trabajo de Ciberseguridad & Seguridad Informática que mejor se adapta a ti

Hoy me toca hablar de Singularity Hackers , la nueva plataforma de Inteligencia Artificial que te ayuda a descubrir el trabajo en Cibersegu...

Entradas populares