3.4 Detección de sesgos, manipulación y desinformación

En el primer módulo de este curso ya hemos prestado cierta atención a los sesgos producidos por los LLM como consecuencia de los prejuicios de cuatro agentes principales:

las sociedades que los han generado;
los textos con los que han sido entrenados;
las empresas y las personas individuales que han supervisado y afinado sus respuestas;
los usuarios, que incluyen sus propios prejuicios en las tareas que "encargan" a estos modelos.

Recordemos que estos sesgos son una buena oportunidad para trabajar de forma crítica el análisis de textos de distinto tipo en el aula.

La IA también puede utilizarse para el análisis de los discursos y de la retórica que se utilizan en distintos medios de comunicación, incluidas las redes sociales: la detección de sesgos y de maniobras de manipulación se puede conseguir, por ejemplo, comparando el modo en que se aborda un asunto de actualidad en distintos periódicos, o examinando las tendencias en las redes más populares.

Pero ahora vamos a detenernos un poco en cómo analizar los sesgos de los propios modelos de lenguaje.

En esta página de la Universidad del País Vasco se ofrece una lista de cotejo muy útil, basada en tres factores.

1. Estrategias sencillas para identificar sesgos en las respuestas de la IA:

2. Riesgos de los sesgos:

3. Formas de reducir las consecuencias de los sesgos:

Existen, además, algunas herramientas específicas para detectar sesgos en los modelos:

Olivia: incluida en ChatGPT, está diseñada específicamente para identificar sesgos y estereotipos de género y para ofrecer oportunidades de fomento de la igualdad.
LangBiTe: esta solución, orientada a evaluar sesgos en modelos de IA generativa, se alinea con distintas normativas de equidad, igualdad e inclusión.
Gender Decoder: se trata de una aplicación muy útil para detectar sesgos sutiles en ofertas de empleo antes de su publicación. Se puede trabajar de forma didáctica en el aula.
Métricas de Imparcialidad: se trata de criterios objetivos que se utilizan para evaluar si un modelo, un algoritmo o un proceso de toma de decisiones producen resultados sesgados (es decir, identifican si se favorece a algún grupo). Un ejemplo sería la medición de las diferencias en la tasas de falsos negativos y falsos positivos. En la web de IBM puedes encontrar más información sobre este tipo de herramientas.

Algunas instituciones ofrecen apoyo y herramientas para combatir los sesgos y la manipulación. Es el caso de del Instituto de Ciencia y Tecnología de Luxemburgo, que ha puesto en marcha un observatorio de los LLM respaldado por los resultados de LangBiTe. Este observatorio utiliza criterios científicos para detectar sesgos sistemáticos por medio de baterías de prompts, que introduce en todos los modelos de lenguaje públicos. Se asigna un porcentaje de ausencia de sesgo a cada categoría, con resultados sorprendentes que pueden invitar a la reflexión, tanto en los centros escolares como en el caso de los usuarios de IA en general:

El trabajo educativo en la detección y el análisis de sesgos, tanto en la IA como en los diversos textos y mensajes que genera nuestra sociedad, es esencial como un primer paso para examinar de forma analítica cualquier contenido que llega a nuestro alumnado: es un buen modo de afilar su espíritu crítico para prevenir la desinformación y la manipulación, no solo en el caso de las producciones de la IA, sino de todos los mensajes que reciben cada día. Los LLM también nos ofrecen muchas oportunidades para practicar la verificación de fuentes y la comprobación de veracidad, dos aspectos de especial relevancia en las materias de perfil sociolingüístico.

Terminaremos este capítulo con algunos consejos para prevenir la desinformación. Para generarlos, hemos combinado las respuestas de diversos LLM:

Detección de Imágenes y Vídeos Falsos (Deepfakes):

Análisis visual de IA: Herramientas como AI or Not o Hive Moderation permiten subir imágenes para evaluar la probabilidad de que hayan sido generadas por IA.

Búsqueda Inversa de Imágenes: IA integrada en motores de búsqueda (Google Lens, TinEye) ayuda a encontrar el origen de una imagen para saber si ha sido descontextualizada o alterada.

Identificación de errores de IA: Aunque son más realistas, busca inconsistencias en fondos, texturas de piel, reflejos de luz o formas de las manos (dedos desfigurados).

Detección de manipulación de voz: Existen sistemas diseñados para analizar si una grabación de voz es real o clonada por IA.

Verificación de Texto y Noticias

Motores de búsqueda con IA: Plataformas como Perplexity AI permiten realizar búsquedas respaldadas por citas y fuentes fiables, ayudando a contrastar titulares llamativos o falsos.

Herramientas que analizan patrones de escritura para identificar si un artículo ha sido generado automáticamente por IA (sitios web de noticias falsas).

La IA se usa para detectar si una noticia busca generar pánico o si sus datos son inconsistentes con fuentes fiables.

Herramientas y plataformas de verificación:

Fact-checkers automatizados: Organizaciones como Chequeado, Newtral o EFE Verifica utilizan sistemas de IA para rastrear conversaciones en redes sociales y verificar datos rápidamente.

Plataformas especializadas: Sitios como Snopes o FactCheck.org utilizan tecnología avanzada para desmentir bulos virales.

Consejos para usar la IA como aliado:

No confíes ciegamente: La IA puede "alucinar" (inventar datos). Úsala como una herramienta de apoyo, no como la verdad definitiva. Verifica la fuente: La IA no sustituye el sentido común. Revisa quién publica y si la información tiene buena ortografía y fuentes originales. Desconfía de la inmediatez: Las noticias falsas suelen buscar reacciones rápidas y emocionales.