Hoy en día con los avances tecnológicos actuales, confiamos en que las computadoras hagan más y más cosas cotidianas por nosotros y nosotras. Al generar más datos, los algoritmos son más precisos para predecir y decidir sobre nuestras vidas. En este artículo nos proponemos trabajar sobre el sesgo algorítmico y reflexionar sobre por qué existen los sesgos y por qué tener equipos de ciencia de datos más diversos es uno de los factores que podría ayudar a mitigarlo.
Integrante de Girls in Tech Uruguay
El sesgo en los algoritmos existe porque la humanidad es sesgada, no podemos escaparle a esa verdad. Los algoritmos aprenden sobre los datos disponibles y es necesario remarcar que dichos datos, al venir de personas suelen ser racistas, misóginos, binarios, capacitistas: es decir no son objetivos.
A continuación partiremos de algunas definiciones que nos ayudarán a comprender el gran problema del sesgo algorítmico con mayor precisión:
Primero, debemos comprender qué hace el aprendizaje automático (Machine Learning en inglés) con nuestros datos. Los algoritmos aplican cálculos estadísticos sobre los datos para encontrar patrones que puedan proporcionar información, identificar tendencias y hacer predicciones. No es magia, no son cajas negras incomprensibles: son solo matemáticas, pero a una velocidad que el cerebro humano no puede procesar. Sí es verdad que hay algoritmos que son complejos y que muchas veces se dificulta comprender su funcionamiento, pero con un poco de estudio y esfuerzo podemos lograr identificar el procedimiento y la lógica detrás de los algoritmos.
El sesgo en el aprendizaje automático corresponde a errores en las suposiciones hechas a partir de los datos. El sesgo no puede desaparecer completamente, pues los algoritmos son creados por personas que a su vez son las responsables del conjunto seleccionado de datos. Como resultado, tanto las personas como los datos pueden estar sesgados.
El sesgo algorítmico (algorithmic bias) se puede presentar de diferentes maneras, como sesgo de género, sesgo racial, sesgo demográfico, sesgo económico, etc. Por lo general, el sesgo desfavorece a las minorías o a aquellos grupos que no están bien representados en los datos que se utilizan para entrenar modelos de aprendizaje automático.
Es importante aclarar que los sesgos pueden presentarse en datos compuestos por números, textos, imágenes, videos, sonidos.
Desde hace algunos años se popularizó la utilización de algoritmos para facilitar tareas que antes tenían que realizar las personas. También se están empezando a utilizar algoritmos para la toma de decisiones sobre la vida de poblaciones de países enteros.
Estas decisiones pueden determinar si una persona es elegible para un préstamo, atención médica, universidad, empleo, o para recobrar o no su libertad luego de estar en la cárcel, por nombrar algunos ejemplos.
El sesgo algorítmico no es un problema fácil de resolver, ya que muchos factores pueden influir en él. No hay soluciones mágicas y es necesario saber que, al igual que las personas, es muy difícil encontrar datos sin sesgos o completamente objetivos.
Los datos pueden estar incompletos o desequilibrados, esto significa que tienen más información sobre un determinado grupo de personas, lo que puede generar sesgos. Tengamos en cuenta que el simple hecho de tener datos balanceados no significa que hayamos eliminado los sesgos por completo, pero es un buen punto de partida.
¿Qué pasa si simplemente eliminamos las variables de género de los datos para evitar el sesgo de género? Como destaca el libro “Fairness and machine learning Limitations and Opportunities” [4], no es tan simple, ya que existen otras variables o características donde el género está oculto, a su vez para ciertos análisis la variable “Género” es importante y no debe descartarse.
Inconscientemente, las personas usamos atajos mentales para la toma de decisiones, y el sesgo introducido en esos atajos no se puede eliminar, ya que es la forma en que funciona nuestro cerebro, para poder desarmar la forma en la que tomamos decisiones inconscientes es necesario realizar un gran trabajo de deconstrucción y de análisis. Sin embargo, conocer las lógicas detrás de nuestras decisiones nos ayudará a prevenir, identificar y evitar errores comunes a la hora de realizar suposiciones y tomar decisiones.
Según el libro “Judgment in managerial decision making,” de Bazerman, [3] los sesgos humanos más comunes se dividen en tres categorías: representatividad, disponibilidad y anclaje, y sesgo de ajuste.
Cuando hablamos de género, las mujeres cis, las personas trans y no binarias no están representadas ni en los datos ni en los equipos de tecnología, menos específicamente en los equipos de científicos de datos.
Como resultado, perdemos su punto de vista en la solución y desarrollo de los algoritmos.
Miremos algunos números sobre la participación de mujeres cis en inteligencia artificial(IA):
Entonces, como los indicadores muestran, los varones cis dominan en la creación de algoritmos, y la visión de las mujeres cis y personas trans y no bianrias no es parte de la solución. Varias entrevistas realizadas en el siguiente estudio [9], muestran que si queremos hacer un cambio en la IA, se debe trabajar más para hacer que los grupos subrepresentados sean más visibles, y no solo para las oportunidades de marketing.
A continuación listaremos varios casos que demuestran lo dañino que pueden ser los sesgos en el mundo del aprendizaje automático y la inteligencia artificial sobre la vida de las personas y se resalta la importancia y urgencia de abordar este tema en la sociedad.
A fines de 2020 Google decidió despedir a Timinit Gebru, la líder de Ética en Inteligencia Artificial. Este hecho fue y es realmente preocupante, ya que vemos muchos sesgos en los algoritmos de Google. Aquí van algunos ejemplos:
2. ¿Qué pasa cuando utilizamos más de una frase?. Veamos este ejemplo en Google Translate traducido del Bengalí, si traducimos hacia atrás y hacia adelante la frase “Ella es una doctora. El es un enfermero” a un lenguaje de género neutro podemos observar lo que sucede a continuación:
Como se puede ver, cambia de género. ¿Significa esto que el algoritmo está mal? ¿Por qué pasó esto? El problema aquí es que los datos históricos dicen que es más probable que una mujer sea enfermera y un hombre sea médico. Entonces, el algoritmo elige la salida más probable, reproduciendo un estereotipo de género que es necesario combatir.
3. De forma similar, se muestra un párrafo más largo para visualizar el hecho de que esta traducción puede ser discriminatoria.
La traducción al español de estas frases sería “Ella es hermosa. Él es inteligente. Él lee. Ella lava los platos. El construye. Él enseña. Ella cocina. Él está investigando. Ella está criando un niño/a. Él toca música. Ella está limpiando. Él es un político. Él gana mucho dinero. Ella hornea una torta. Él es un profesor. Ella es una asistente”
4. En octubre de 2017, se reportó que un algoritmo de Google que realizaba Análisis de Sentimiento asignó una clasificación negativa a la frase “Soy homosexual”. Este algoritmo fue entrenado con millones de datos de diversas fuentes y aprendió a clasificar de forma negativa la frase.
Los textos producidos por el modelo de lenguaje autorregresivo GPT3 son tan parecidos a textos producidos por personas, que por lo tanto, también presentan sesgos. En el paper “Language Models are Few-Shot Learners” [2], OpenAI dice que el modelo presenta limitaciones en lo que respecta a la equidad, el sesgo y la representación.
Estos ejemplos deberían ser evidencia más que suficiente para iniciar esta conversación a una escala más amplia. Si bien algunos ejemplos son de hace unos años, otros son muy recientes. Y a su vez son los ejemplos que salieron a la luz, lo que nos lleva a preguntarnos ¿qué sucede con todos aquellos modelos sesgados que están tomando decisiones sobre las vidas de las personas y que nadie está auditando? Esto enfatiza aún más cómo no hemos mejorado y que el problema no se puede resolver por sí solo.
En conclusión, como científicos y científicas de datos, tenemos la responsabilidad de tomar acción, y como sociedad, tenemos el derecho de denunciar y de luchar contra el sesgo.
Evitar el sesgo, como se discutió a lo largo de este artículo, no es un problema fácil de resolver. Sin embargo, podemos tomar determinadas acciones necesarias para reducirlo.
La inteligencia artificial está en todas las industrias, los datos están en todos lados. Entonces, no importa si trabajas en tecnología o no, no importa la industria que trabajes hay gran probabilidad de que IA sea parte de tu trabajo. O que incluso ni te des cuenta. Estamos generando datos todo el tiempo, en las redes sociales, datos históricos, datos administrativos. Todos estos datos pueden ser utilizados por algoritmos.
Por lo tanto, te invitamos a pensar en el poder que tiene la Inteligencia Artificial y te preguntes: ¿Cómo estamos usando la tecnología para la toma de decisiones? ¿Cuál es el potencial de la IA? ¿Cuáles son sus limitaciones? Teniendo en cuenta que el sesgo nunca se eliminará por completo, ¿qué debería regularse y cómo?
No estamos diciendo que la solución sea prohibir el uso de IA: la IA está aquí para quedarse, lo que estamos diciendo es que aceptar las limitaciones actuales que presenta puede ayudarnos a sacarle el mayor provecho y a analizar los procesos tecnológicos desde una mirada crítica.
Data Observatory
with a Gender Perspective