3.4 Detección de sesgos, manipulación y desinformación

En el primer módulo de este curso ya hemos prestado cierta atención a los sesgos producidos por los LLM como consecuencia de los prejuicios de cuatro agentes principales:

las sociedades que los han generado;
los textos con los que han sido entrenados;
las empresas y las personas individuales que han supervisado y afinado sus respuestas;
los usuarios, que incluyen sus propios prejuicios en las tareas que "encargan" a los modelos.

Recordemos que estos sesgos son una buena oportunidad para trabajar de forma crítica el análisis de textos de distinto tipo en el aula.

La IA también puede utilizarse para el análisis de los discursos y la retórica que se utilizan en distintos medios de comunicación, incluidas las redes sociales: la detección de sesgos y de maniobras de manipulación se puede conseguir, por ejemplo, comparando el modo en que se aborda un asunto de actualidad en distintos periódicos, o examinando las tendencias en las redes más populares.

Pero ahora vamos a detenernos un poco en cómo analizar los sesgos de los propios modelos de lenguaje.

En esta página de la Universidad del País Vasco se ofrece una lista de cotejo muy útil, con tres factores.

1. Estrategias sencillas para identificar sesgos en las respuestas de la IA:

Sesgos: https://ai-sandbox.list.lu/llm-leaderboard/

Detección de desinformación, manipulación y textos generados por IA: señales, verificación de fuentes y comprobación de veracidad.

https://www.ehu.eus/es/web/adimen-artifiziala/detecci%C3%B3n-de-sesgos