Aunque a menudo pensamos en la inteligencia artificial como una herramienta neutral y objetiva, lo cierto es que los modelos de lenguaje actuales pueden perpetuar y amplificar estereotipos culturales en múltiples idiomas. Así lo demuestra una reciente investigación liderada por Margaret Mitchell, científica jefa de Ética en la empresa Hugging Face.
¿Cómo se transmiten los estereotipos a través de la IA?
Los modelos de lenguaje como los que usamos en chatbots o asistentes virtuales aprenden de enormes cantidades de texto disponibles en internet. Y en ese material abundan los estereotipos: de género, de nacionalidad, de edad, etc. Algunos son ampliamente conocidos, como que «las rubias son tontas» o que «los ingenieros son hombres», pero muchos otros son más locales: que la gente de Río de Janeiro es pícara, o que los pakistaníes son conservadores.

Lo preocupante es que, una vez que estos modelos aprenden esos estereotipos, los reproducen como si fueran parte del conocimiento general. Y lo hacen incluso cuando se traducen a otros idiomas, sin tener en cuenta los matices culturales propios de cada lengua o región.
Un estudio global con más de 300 estereotipos
El equipo de investigadores, que domina 16 idiomas distintos, creó una base de datos con más de 300 estereotipos provenientes de distintas culturas. Con ellos, desarrollaron manualmente una serie de preguntas que se usaron para evaluar cómo responden varios modelos de IA multilingües, como Bloom, Llama, Mistral y Qwen.
Los resultados fueron reveladores: la forma en que los modelos replican estereotipos depende mucho del idioma, del modelo concreto y del tipo de tópico. Por ejemplo, los modelos desarrollados en China o Singapur respondían de forma muy distinta sobre el comunismo en comparación con modelos entrenados en Estados Unidos.
Los estereotipos más comunes (y más visibles)
Entre los estereotipos que más se repiten están los de género, como el típico “a las niñas les gusta el rosa”. Según Mitchell, es positivo que algunos modelos hayan sido capaces de reconocer que ciertos enunciados son estereotipos y no hechos universales, aunque esa capacidad no siempre se extiende a estereotipos menos evidentes.
Además, los modelos suelen tener más dificultades cuando el prompt (es decir, la pregunta o propuesta) presenta un estereotipo en tono positivo. En esos casos, tienden a aceptar la afirmación sin cuestionarla.

Una herramienta para hacer IA más justa
Los resultados de esta investigación han sido compilados en una base de datos pública llamada Shades, que puede ayudar a desarrolladores y empresas tecnológicas a identificar dónde sus modelos fallan y qué tipo de entrenamiento adicional podrían necesitar.
“El objetivo no es solo señalar errores, sino orientar mejoras”, explica Mitchell. Idealmente, los modelos deberían haber sido entrenados desde el inicio con datos más diversos y matizados. Pero mientras tanto, herramientas como Shades permiten detectar y corregir sesgos ya existentes.
Lenguas minoritarias: las grandes perjudicadas
Uno de los hallazgos más preocupantes del estudio es que los modelos de lenguaje tienden a mostrar respuestas más sesgadas y estereotipadas en idiomas menos comunes. Cuando un idioma ha sido poco representado en el entrenamiento, es más probable que el modelo genere respuestas negativas o imprecisas sobre esa cultura.
Incluso pueden justificar ciertos prejuicios utilizando pseudociencia o pseudohistoria, lo que amplifica aún más la desinformación.
Este estudio nos recuerda que la IA no es ajena a nuestros prejuicios; los refleja, los amplifica y, a veces, los exporta de una cultura a otra sin filtro. Por eso es tan importante no solo avanzar en la tecnología, sino también en la forma en que la entrenamos. Porque una IA verdaderamente global debería ser también una IA verdaderamente justa.
