domingo, junio 16, 2019

Microsoft, Google, los servicios de traducción y el sesgo de género

Ya os hablé hace algunas semanas de que no me gustaba mucho como el widget del traductor de Google tenía cierto sesgo de genero con las profesiones, mostrando lo que el análisis de los datos en bruto, sin ningún cuidado de quitar sesgos aprendidos de ellos, daba. Ese mismo descontento lo compartí con mis amigos en el sector de la tecnología, y por supuesto con Google.

Figura 1: Microsoft, Google, los servicios de traducción y el sesgo de género

Que Google está trabajando en ello como vimos con TCAV, al igual que Microsoft y el resto de las empresas tecnológicas es algo de lo que no tengo ninguna duda. Pero aún así, viendo el avance que está teniendo la Inteligencia Artificial y en concreto el uso de Interfaces Cognitivos, mi deseo de que Google, Microsoft, Apple y el resto de las empresas tecnológicas - como también intentamos en Telefónica - hagan un correcto reconocimiento de los términos de la lengua española, y que hagan un esfuerzo por evitar cualquier sesgo - como estos de genero - que aparecen en sus productos es grande. 

Figura 2: TCAV descubriendo un sesgo de género con TVAV en uno de los vectores
de activación del reconocimiento de fotos de doctores

La tecnología la hacemos para mejorar la vida de las personas, y si llevamos a los modelos tecnológicos todo lo malo que tenemos - y que queremos erradicar - entonces no lo estaremos haciendo bien.

El caso de Google Translate

De este caso concreto hablé en un artículo en el que se podía ver que cuándo buscabas determinadas profesiones en el widget de Google Translate aparecía un sesgo de género, traduciendo engineer por "ingeniero" y nurse por "enfermera", algo que valdría también para "ingeniera" o "enfermero".

Figura 3: Sesgo de género en profesiones en Google Translate

En sus esfuerzos por mejorar esta situación, los equipos de Google han cambiado el widget de Translate para que muestren las profesiones en un formato en el que quede claro que en el inglés ese término vale para los dos géneros en español.

Figura 4: Ahora el Widget de Google deja claro que nurse vale para enfermera y enfermero

Por supuesto, yo me alegro mucho por este cambio y les felicito por haber hecho este pequeño movimiento para eliminar el sesgo que tenía en la versión anterior. Ahora ya los que trabajan como  "engineers" pueden ser también "ingenieras".

Figura 5: Engineer es Ingeniera o Ingeniero. Gracias Google.

Además, cuando el sistema de traducción tiene información suficiente como para conocer el género del sujeto al que se atribuye el texto, también toma la forma correcta de traducirlo, como se puede ver en la imagen siguiente.

Figura 6: El sistema descubre que el sujeto es femenino y usa "una" e "ingeniera" correctamente

Pero...  aún nos queda mucho que avanzar. En el momento en que se pone un texto en el que no se especifica el género, aparece otra vez el sesgo. Así, los que trabajan como "engineers" vuelven a ser hombres, como los "doctors" y las personas que son "nurses" son enfermeras.

Figura 7: El doctor es hombre por el sesgo

Y por supuesto, lo contrario como ya he dicho antes.

Figura 8: nurse es femenino

El Grado de Sesgo de una traducción. Una propuesta

Y esto es algo que tenemos que arreglar. ¿Es tan difícil? No, no lo es. Bastaría con que se hiciera una traducción y aparecieran la lista de términos que pueden ser femenino o masculino. Supongamos un texto de 500 palabras, y en él existen 10 términos que pueden ser masculino o femenino en español, pero que no se puede saber por que el texto no ofrece suficiente información para saberlo, como sucede en los ejemplos de la Figura 7 o Figura 8.

Figura 9: Ejemplo de cómo podría informarse al usuario de que
una traducción tiene "géneros arbitrarios"

Pues bien, lo que habría que ofrecer es información de Grado del Sesgo de la traducción, poniendo el número de palabras en las que el traductor ha decidido el género arbitrariamente por no haber sido capaz de discernir por el texto de origen el correcto. Y que el lector sepa que existe sesgo en la traducción y pueda elegir él con qué género quiere cada uno de los términos, pero teniendo la información del sesgo apropiada.

Microsoft y su traductor

En el caso de Microsoft y su traductor la situación es la misma. Bueno, no, con el último cambio de Google para añadir en el widget los dos términos, la situación de Microsoft es un poco peor. Por supuesto tiene sesgo de género en todas las profesiones como le sucede a Google.

Figura 10: Traducción de "nurse" a "enfermera"
Basta con probar con los ejemplos de engineer y nurse para ver que el widget de Microsoft Translator tiene el mismo problema que tenía Google como os conté antes.

Figura 11: Un "engineer" sigue siendo un "ingeniero" para Microsoft Translator

También se nota cuando no es capaz de detectar el género en un texto, seleccionando por defecto el que lleve en el sesgo, tal y como se puede ver en este ejemplo.

Figura 12: El doctor toma el género masculino en la traducción
Y al igual que Google, sí que hay que decir que cuando Microsoft Translator detecta el género, o lo infiere suponiendo que "Mary" sea femenino,  que es otro debate más que tendremos en el futuro con los nombres personales, utiliza el genero apropiado.

Figura 12+1: Mary es una buena doctora
Para terminar

Me gustaría ver información como la que inventé en la Figura 9, y estoy seguro que el futuro irá por allí, o mejor aún, ya no será necesario hacer nada porque ya habremos dejado las diferencias en el pasado. Por ahora, me gustaría agradecer el cambio que ha hecho Google en su widget. Es de agradecer esa muestra de interés. Estos pequeños cambios en tecnología tan utilizada por la sociedad tiene un impacto enorme y ayudan.


Pero aún nos queda un poco más que avanzar. A ver si entre todos y todas continuamos mejorando. Aún así, reitero mi agradecimiento a Google, porque como decía Hans Roslings. "Un poco mejor" es mucho mejor que "exactamente igual" o "un poco peor".

Saludos Malignos!

No hay comentarios:

Entrada destacada

Cupón descuento en @0xWord: Unos libros "dibujados" y vacaciones

Como todos los años, 0xWord va a cerrar durante unas semanas en el mes de Agosto, así que desde hoy mismo hasta el día 25 de Julio a las 2...

Entradas populares