3.4 Detección de sesgos, manipulación y desinformación

En el primer módulo de este curso ya hemos prestado cierta atención a los sesgos producidos por los LLM como consecuencia de los prejuicios de cuatro agentes principales:

las sociedades que los han generado;
los textos con los que han sido entrenados;
las empresas y las personas individuales que han supervisado y afinado sus respuestas;
los usuarios, que incluyen sus propios prejuicios en las tareas que "encargan" a los modelos.

Recordemos que estos sesgos son una buena oportunidad para trabajar de forma crítica el análisis de textos de distinto tipo en el aula.

La IA también puede utilizarse para el análisis de los discursos y la retórica que se utilizan en distintos medios de comunicación, incluidas las redes sociales: la detección de sesgos y de maniobras de manipulación se puede conseguir, por ejemplo, comparando el modo en que se aborda un asunto de actualidad en distintos periódicos, o examinando las tendencias en las redes más populares.

Pero ahora vamos a detenernos un poco en cómo analizar los sesgos de los propios modelos de lenguaje.

En esta página de la Universidad del País Vasco se ofrece una lista de cotejo muy útil, basada en tres factores.

1. Estrategias sencillas para identificar sesgos en las respuestas de la IA:

2. Riesgos de los sesgos:

3. Formas de reducir las consecuencias de los sesgos:

Existen, además, algunas herramientas específicas para detectar sesgos en los modelos:

Olivia: incluida en ChatGPT, está diseñada específicamente para identificar sesgos y estereotipos de género y para ofrecer oportunidades de fomento igualdad.
LangBiTe: esta solución, orientada a evaluar sesgos en modelos de IA generativa, se alinea con distintas normativas.
Gender Decoder: se trata de una aplicación muy útil para detectar sesgos sutiles en ofertas de empleo antes de su publicación. Se puede trabajar de forma didáctica en el aula.
Métricas de Imparcialidad: se trata de criterios objetivos que se utilizan para evaluar si un modelo, un algoritmo o un proceso de toma de decisiones produce resultados sesgados. Identifican si se favorece a algún grupo. Un ejemplo sería la medición de las diferencias en la tasas de falsos negativos y falsos positivos. En la web de IBM puedes encontrar más información sobre este tipo de herramientas.

Sesgos: https://ai-sandbox.list.lu/llm-leaderboard/

Detección de desinformación, manipulación y textos generados por IA: señales, verificación de fuentes y comprobación de veracidad.