Guia trabajo libro
Basado en los bloques esta es la distribución propuesta del curso y ponentes
La filosofía del curso es que haya siempre una parte práctica de modo que desde el primer minuto el alumno ya tome contacto con herramientas de IA, obviamente crecientes en complejidad.
En general y salvo que se explicite todas las actividades se entregarán en un documento pdf con la estructura indicada.
Siempre con una portada que incluya la cabecera con el nombre y apellidos y la fecha.
De manera orientativa cada hora es 1000 palabras como mínimo y 1500 máximo
La estructura es módulo o capítulo y unidades que son cada página dentro del módulo.
Aquí están las orientaciones generales a tener en cuenta
https://libros.catedu.es/books/manual-de-creacion/page/orientaciones#bkmrk-extensi%C3%B3n-de-los-con
El guión general sería este:
Módulo 1 Introducción y panorama de la IA - 6h
Unidad 11 Panorama y conceptos - 1h HUESO
Unidad 121.2. HistoriaPrehistoria de la IA, antes de llamarse IA. - 4h PEDRO
Unidad 13 Inicios y evolución de la IA. - PEDRO
Unidad 14 Situación actual y aplicaciones extremas - 1h PEDRO
Módulo 2 Fundamentos de IA - 6h
Unidad 21 De que estamos hablando: Concepto y Definiciones de IA - 1h HUESO
Unidad 22 Aprendizaje profundo o cómo aprender de los datos - 1h HUESO
Unidad 23 Machine Learning. Como aprender sin instrucciones - -2h HUESO
Unidad 24 Redes neuronales. Imitando al cerebro - 2h HUESO
Concepto, funcionamiento y tipos (perceptrón, redes de refuerzo, transformers...)
Módulo 3 Y ahora que hago con la IA. Aplicaciones de la IA - 10h
Unidad 31 Posibilidades de la IA - 1h PEDRO
Unidad 32 Introducción a prompting - 4h PEDRO
Actividad: revisión chatGPT
Unidad 33 Tipos de aplicaciones de la IA - 2h HUESO
Actividades: Aplicaciones multimodo
Unidad 34 Aplicaciones educativas - 4h HUESO (1) - PEDRO (3)
Actividad: Uso de Khanmigo, ML4Kids etc...
Módulo 4 Más allá de chatGPT - 12h
Unidad 41 Ampliando el chat. Transfer learning y almacenes de datos - 4h HUESO
Actividad: Crea tu propio bot con tus datos (transfer learning y vectores de datos)
Unidad 42 Nuevos paradigmas de chatBots - 4h PEDRO
Agentes, autogpt, ...
Unidad 43 Programación para incautos - 4h HUESO
Módulo 5 Consideraciones sociales y futuro de la AI - 6h
Unidad 51 Efectos económicos y sociales - 2h PEDRO
Unidad 52 Consideraciones éticas - 2h PEDRO
Unidad 53 Futuro de la AI - 2h HUESO
---------------------------------------------------------------------------------------------------------------------------
AB21
- Descripción:
Analizar una aplicación novedosa y real de IA
Incluir un texto que describa la historia, el propósito etc.. de dicha aplicación
Usar chatGPT para generar un resumen
Generar varias imágenes con una herramienta por determinar, a partir del resumen anterior
- Duración 2h
- Entrega: documento pdf con
- Portada con datos personales
- Descripción actividad
- Vídeo o enlace al mismo
- Recursos
MÓDULO 2 - 10h - 50 páginas TOTAL 16h
Bloque 3 Las máquinas no piensan, fundamentos - Hueso - 4h
Longitud: unas 40 páginas
Hablaremos de los fundamentos de la IA, no con un propósito profundo sino para entender como se generan y procesan la información los modelos de lenguaje.
AB31
- Descripción:
Hacer una demo de wordembeddings o de simulación de red neuronal
Crea un vídeo explicativo de la simulación según lo visto en la documentación.
- Duración 2h
- Estructura
-
- Portada
- Descripción actividad
- Vídeo o enlace al mismo
- Recursos
AB32
- Descripción:
Busca un video de YouTube que explique algún concepto de IA
Usa una herramienta para transcribirlo a texto
- Duración 2h
- Entrega: documento pdf
- Portada
- Descripción actividad
- Enlace al video propuesto
- Transcripción
- Recursos
Bloque 4 Y yo que puedo hacer?. Aplicaciones teóricas- Pedro - 2h
Longitud: unas 20 páginas
Bloque dedicado a describir, a nivel teórico, los posibles usos de la IA haciendo hincapié en el ámbito educativo.
Exponer las posibilidades de la IA partiendo de tareas básicas (completar frase) a tareas más complejas (generar una canción)
Capacidades de la IA
Comprensión lenguaje humano
Extracción de información relevante
Generación lenguaje
Traducción automática
Clasificadores
Análisis de sentimiento
Etiquetado de texto con tipo de token (verbo, sustantivo...)
Multimodo: texto-voz-audio-video-imagen
Texto a voz
Texto a imagen
Texto a podcasts
Limpieza podcasts/voz
Eliminación de ruidos
Informes sobre datos estructurados y no estructurados
Generación de contenido textual
Obtención de palabras significativas
Aplicaciones Educación
Generar cuestionarios
Generar audios desde texto
Resúmenes
Correctores de test y texto natural
Clasificadores
Generar unidades de trabajo o actividades formativas
Avatares que hablen a paritr de medios textuales
Asistentes personalizados
AB31
- Descripción:
Pensar una aplicación o caso de uso concreto en el aula, explicarla y anañizar los posibles efectos potenciales en el mundo educativo o en el sector que se trabaja.
Pedir a chatGPT que añada otras posibilidades
- Duración 2h
- Estructura
-
- Portada
- Descripción actividad
- Captura de la respuesta de chatGPT
- Recursos
Bloque 4.1 Taller de prompting - Pedro - 4h
Usar esta u otras referencias para adaptarlo a un taller propio:
MÓDULO 3 - 10h - 50 páginas TOTAL 26h
Unidad 31 Posibilidades de la IA - 1h PEDRO
Unidad 32 Introducción a prompting - 3h PEDRO
Actividad: revisión chatGPT
Citas (a elegir):
Max Beerbohm: "El único objetivo real de la educación es que la persona se haga preguntas"
Voltaire: "Juzga a un hombre por sus preguntas y no por sus respuestas"
Bernard Baruch: "Millones vieron caer la manzana, pero Newton fue el que se preguntó por qué"
Eugene Ionesco: "No es la respuesta la que ilumina, sino la pregunta"
Naguib Mahfouz: "Puedes saber si un hombre es inteligente por sus respuestas. Puedes saber si un hombre es sabio por sus preguntas"
Albert Einstein: “Lo importante es no dejar de hacerse preguntas”
Albert Einstein: “"Si yo tuviera una hora para resolver un problema, y mi vida dependiera de la solución, gastaría los primeros 55 minutos en determinar la pregunta apropiada, porque una vez conociera la pregunta correcta, yo podría resolver el problema en menos de cinco minutos"
Índice del Capítulo - Unidad 32 Introducción a prompting - 3h PEDRO (sombreado en gris lo ya escrito)
1Introducción
Objetivos del capítulo
Qué es "prompting"
Importancia de prompting en inteligencia artificial (IA)
2Historia y Evolución del Prompting
Desde interfaces de línea de comandos hasta IA conversacional
Evolución hacia medios más allá del texto
3Tipos de Prompts
Prompts de texto
Prompts abiertos vs cerrados
Prompts de selección múltiple
Prompts de texto libre
Prompts visuales
Prompts de audio
Sonidos
Música
4Cómo Funciona el Prompting en IA
Procesamiento de lenguaje natural (PLN)
Generación de imágenes
Generación de audio
Prompts en modelos de aprendizaje supervisado
5Importancia del Diseño de Prompts
Claridad y ambigüedad en la redacción de prompts
Prompts pre-entrenados vs customizados
Consideraciones éticas en el diseño de prompts
6Aplicaciones del Prompting en Educación
Evaluación formativa y sumativa
Tutoriales inteligentes y asistentes educativos
Fomento de la creatividad y resolución de problemas
Personalización del aprendizaje
7Ejemplos de Uso de Prompting en IA
Chatbots y asistentes virtuales
Motores de búsqueda
Generadores de imágenes
Generadores de audio y música
Juegos interactivos
8Integración de Prompting en Aplicaciones de IA
APIs y SDKs disponibles para texto, imágenes y audio
Desafíos y limitaciones
9Actividad: Diseña Tu Propio Prompt - prueba en mas de un modelo de lenguaje, crea una composicion coherente (texto, imagen, musica...)
Instrucciones para crear un prompt efectivo para texto, imagen o audio
Ejercicio práctico para diseñar un prompt
Discusión y análisis de los resultados
Tiempo estimado: 30 minutos
1. Introducción
Ya hemos visto que la herramienta que provocó la irrupción masiva la inteligencia artificial a nivel popular fue el chatbot ChatGPT. La tecnología que hay detrás de este chat es el modelo de lenguaje de gran escala (LLM, por sus siglas en inglés). A día de hoy, este modelo se ha utilizado para desarrollar muchos otros chatbots (Bard, Llama, Claude etc…).
Para poder sacar el mayor potencial de estos modelos, es crucial entender y aplicar de manera efectiva la técnica de "prompting". Esta técnica nos permite interactuar con estos modelos de lenguaje para recibir respuestas específicas y generar distintos tipos de contenido, desde texto, como en los chatbots, hasta imágenes y sonidos a través de otras herramientas que veremos más adelante.
En este capítulo, vamos a explorar el concepto de prompting de forma detallada, sus implicaciones en la IA, y su potencial aplicación en la educación.
Objetivos del Capítulo
Comprender qué es el "prompting" y su importancia en la interacción con modelos de IA.
Familiarizarse con la evolución histórica y los distintos tipos de prompts que existen.
Aprender cómo funciona el prompting en la generación de diferentes tipos de contenido (texto, imágenes, sonidos).
Conocer las aplicaciones específicas del prompting en el contexto educativo.
Qué es "Prompting"
El prompting es una técnica utilizada para interactuar con sistemas de IA mediante comandos o preguntas específicas. Es el medio por el cual se le pide a un modelo de lenguaje o a un algoritmo de IA que realice una acción o que genere una respuesta. Este concepto es fundamental para aprovechar plenamente las capacidades de los modelos de IA, especialmente en el procesamiento de lenguaje natural (PLN).
El prompting nos lleva a introducir al modelo un prompt, lo que en castellano podríamos traducir como “cuestión, pregunta o Indicación”.
Por tanto, el prompting se trata, dicho de manera simple, de pensar y trabajar la indicación o pregunta que vamos a realizarle al modelo de IA para que la respuesta o resultado que el modelo nos presente sea lo más ajustado posible a nuestra solicitud y nos aporte un contenido lo más valioso posible.
Un ejemplo aclaratorio:
Todos hemos hecho búsquedas en cualquiera de los buscadores disponibles por internet. Al hacerlas, en mayor o menor medida hacemos un esfuerzo para introducir el texto adecuado para que el motor de búsqueda encuentre la web o webs más relevantes para necesidades. Ese esfuerzo que hacemos para que nuestra entrada facilite al buscador ofrecernos lo que buscamos sería el prompting. En el contexto de un motor de búsqueda, esto se traduciría en cómo eliges y organizas las palabras clave para obtener los resultados más relevantes. Es una especie de "arte" en cómo haces tu pregunta para obtener la mejor respuesta
A su vez, el texto que introducimos en el buscador representaría el prompt. Es la consulta específica que generas, compuesta de palabras clave, frases o preguntas, que el motor de búsqueda procesa para obtener resultados.
Importancia de Prompting en Inteligencia Artificial (IA)
El prompting es esencial en la actualidad para una gran variedad de aplicaciones de IA. Desde asistentes virtuales hasta motores de búsqueda y sistemas de recomendación, el diseño y la implementación efectiva de prompts son cruciales para la eficacia y precisión de estos sistemas. Además, con la aparición de modelos más avanzados y diversos, el papel del prompting se ha expandido para incluir la generación de contenido más allá del texto, como imágenes y sonidos.
2. Historia y Evolución del Prompting
En los albores de la computación, las interacciones con las máquinas eran bastante rudimentarias. Las interfaces de línea de comandos fueron algunas de las primeras formas de prompting, donde los usuarios ingresaban comandos de texto específicos para obtener respuestas o realizar tareas. Aunque este método fue efectivo para su tiempo, era muy limitado en términos de accesibilidad y flexibilidad.
Desde Interfaces de Línea de Comandos hasta IA Conversacional
Con el tiempo y el avance tecnológico, las formas de interactuar con las máquinas se han vuelto cada vez más sofisticadas. Pasamos de las interfaces de línea de comandos (MS-DOS) a interfaces gráficas de usuario (Windows) y luego a interacciones más intuitivas gracias a la IA. Los modelos de lenguaje de gran escala como GPT-3 (modelo detrás de ChatGPT) y LaMDA (modelo detrás de Bard) permiten ahora una interacción mucho más natural y conversacional. A través de prompts bien diseñados, estos modelos pueden comprender y generar texto, imágenes, y sonidos que son increíblemente cercanos a lo que un humano podría producir o entender.
Evolución hacia Medios más Allá del Texto
En sus inicios, el prompting se limitaba principalmente al texto. Sin embargo, con el desarrollo de modelos de IA más avanzados, ahora es posible generar y analizar diferentes tipos de medios. Por ejemplo, existen modelos que pueden generar imágenes basadas en descripciones de texto (prompts de imagen), y también modelos que podrían generar un texto basándose en una imagen (que en este caso haría el papel de prompt), pero también modelos que pueden componer música basada en ciertas instrucciones o emociones (prompts de audio). Esta evolución ha ampliado enormemente el alcance y las aplicaciones del prompting, permitiendo una gama más amplia de interacciones y generación de contenido.
Estos modelos suelen ser multimodales, lo que significa que pueden entender y generar diferentes tipos de datos, como texto e imágenes. Mas ejemplos, podrías ingresar una imagen de un paisaje otoñal en un modelo de este tipo, y solicitar que genere un poema que capture la esencia de la imagen.
Este tipo de interacción representa una evolución emocionante en el campo del prompting, ya que amplía significativamente las formas en que podemos interactuar con los modelos de IA. Los prompts ya no están limitados al texto, sino que pueden abarcar una variedad de medios, incluidas imágenes, sonidos y quizás más en el futuro.
Esta funcionalidad tiene aplicaciones potenciales muy interesantes, no solo en el ámbito del arte y la creatividad, sino también en campos como la educación, donde podría emplearse para enseñar conceptos como la interpretación de imágenes, la escritura creativa o incluso la empatía y el entendimiento cultural.
....
3. Tipos de Prompts
Como hemos visto en la evolución histórica, a medida que la inteligencia artificial ha evolucionado, los prompts que podemos utilizar para interactuar con los modelos también lo han hecho. Mientras que en sus inicios el prompting se centraba exclusivamente en el texto, la tecnología actual permite una gama mucho más amplia de interacciones.
El desarrollo de la IA le permite abordar una amplia variedad de modalidades. Las "modalidades" en este contexto se refieren a las diferentes formas de datos o información que los sistemas de IA pueden procesar (prompt de entrada) o generar (salida de la IA).
En la siguiente tabla vamos a resumir todas las modalidades que la IA generativa nos ofrece. Cada una de las cuales admite uno o más tipos de prompts.
Prompt (entrada) |
Respuesta IA (salida) |
Ejemplo de uso |
Texto |
Texto |
Chatbot, traducción, resumen… |
Texto |
Imagen |
Generación imagen desde texto |
Texto |
Video |
Generación de video desde texto |
Texto |
Audio |
Síntesis de voz, sistemas Text-To-Speech, generación de música |
Imagen |
Texto |
Descripción imagen, reconocimiento óptico de caracteres (OCR) |
Imagen |
Imagen |
Colorización de imágenes en blanco y negro, superresolución, estilo transfer entre imágenes |
Audio |
Texto |
Transcripción automática, reconocimiento de voz |
Audio |
Audio |
Eliminación de ruido, cambio de tono o velocidad |
Video |
Texto |
Subtitulación, descripción automática del contenido |
Video |
Video |
Mejora de resolución de video, transferencia de estilos de videos |
Combinación de anteriores |
Cualquiera o una combinación de las anteriores |
MULTIMODALIDAD: Sistemas que pueden recibir una imagen y una pregunta en texto sobre esa imagen, y proporcionar una respuesta en texto o audio. |
Estas son algunas de las principales modalidades en las que operan los sistemas de IA. Pero hay que subrayar que la investigación en IA está en constante evolución, y con el tiempo es probable que veamos aún más capacidades y combinaciones en términos de modalidades.
A continuación, examinaremos con mayor profundidad algunas posibilidades de los tipos de prompts de uso mas común
Prompts de Texto
El texto ha sido tradicionalmente el medio más común para el prompting en IA. Los prompts de texto se introducen generalmente en forma de preguntas o comandos. Dentro de los prompts de texto podemos distinguir en base al tipo de respuesta que queremos obtener:
Prompts Abiertos vs Cerrados:
Los prompts abiertos son aquellos que no limitan las respuestas de la IA, como "Háblame sobre el cambio climático".
Los prompts cerrados, en cambio, buscan respuestas específicas, como "¿En qué año nació Albert Einstein?".
Prompts de Selección Múltiple:
A veces, se presenta a la IA una serie de opciones y se le pide que elija la correcta o la más adecuada según el contexto. Por ejemplo: "¿Cuál es la capital de Francia? A) Madrid, B) Berlín, C) París".
Prompts de Texto Libre:
Son aquellos en los que se le da libertad a la IA para generar contenido, como "Escribe un cuento corto sobre un robot".
(*) NOTA O RECORDAR MENCIONARLO AL HABLAR DE EDUCA,
Prompts Visuales
Con la evolución de los modelos de IA hacia capacidades multimodales, es posible usar imágenes o videos como prompts. Con estos prompts se le puede solicitar a la IA que describa la imagen, identifique objetos en ella o, como se mencionó anteriormente, genere texto creativo inspirado en la imagen. También puede pedírsele una salida de la imagen o video mejorada o modificada.
Prompts de Audio
La capacidad de procesar y generar audio ha abierto una nueva dimensión en el mundo del prompting. Los prompts de audio pueden variar desde simples comandos verbales hasta la introducción de fragmentos de música o sonidos específicos.
Sonidos:
Se pueden usar para que la IA identifique o describa, como el canto de un pájaro o el ruido de la lluvia.
Música:
Puede servir como inspiración para que la IA genere letras de canciones, identifique el género musical o incluso cree una melodía complementaria.
Estos son solo ejemplos de las posibilidades ya explotadas y de uso frecuente. La versatilidad y el potencial de la inteligencia artificial moderna abre un mar de posibilidades. Ya no estamos limitados a interacciones basadas en texto; la IA ahora tiene la capacidad de comprender y generar contenido en una variedad de medios, lo que permite aplicaciones mucho más ricas y diversificadas en numerosos campos.
4. Cómo Funciona el Prompting en IA
El prompting en la inteligencia artificial, desde el punto de vista del usuario, se resume en proporcionar una entrada más o menos elaborada y esperar una respuesta, si bien este proceso, muchas de las veces, requerirá de un cierto número de iteraciones hasta que la IA nos genere la respuesta conveniente.
Detrás de cada respuesta generada por un modelo de IA, hay una serie de procesos y tecnologías complejas. Vamos a realizar una ligera introducción que nos permita entender aunque sea de manera intuitiva cómo funcionan estos sistemas, si bien en otros capítulos del curso se describirá el funcionamiento con mayor profundidad.
4.1. Procesamiento de Lenguaje Natural (PLN)
Hemos visto que una parte de la IA se centra en los modelos Text2Text. Estos modelos requieren la introducción de un texto y devuelven otro texto como respuesta, ya sea una respuesta concreta, una conversación con un Chatbot, un resumen, una traducción…
La tecnología que hay debajo de esta funcionalidad es el Procesamiento de Lenguaje Natural (PLN)
El PLN es una rama de la inteligencia artificial que se centra en la interacción entre las computadoras y el lenguaje humano. Su objetivo es permitir que las máquinas entiendan, interpreten y generen lenguaje de manera que sea valioso para los usuarios humanos.
El prompt es la entrada que la computadora debe entender, interpretar y utilizar para elaborar una respuesta útil. Al proporcionar un prompt textual, el modelo de lA procederá primero a su análisis, que puede dividirse en los siguientes pasos:
· Identificación de las palabras clave: El sistema identifica las palabras clave en el prompt. Estas palabras clave son importantes para comprender el significado del prompt.
· Análisis de la estructura gramatical: El sistema analiza la estructura gramatical del prompt, lo que ayuda al sistema a comprender la relación entre las palabras y frases en el prompt.
· Identificación del contexto: El sistema identifica el contexto del prompt. Esto ayuda al sistema a comprender el significado del prompt en el contexto de la conversación o tarea en la que se está utilizando.
Una vez que el sistema ha completado el análisis del prompt, puede comprender el significado y propósito del prompt. Esto le permite al sistema generar una respuesta adecuada.
Veamos un ejemplo sencillo:
Prompt: ¿Cuál es la capital de España?
· Identificación de las palabras clave: Si el prompt es "¿Cuál es la capital de España?", las palabras clave serían "capital" y "España".
· Análisis de la estructura gramatical: Si el prompt es "¿Cuál es la capital de España?", la estructura gramatical es una pregunta.
· Identificación del contexto: Si el prompt es "¿Cuál es la capital de España?", el contexto es una conversación sobre geografía.
Obviamente la respuesta que da el sistema es: Madrid
Sin embargo, cambiando un poco el contexto, el chatbot Chat GPT nos contesta
Y si le preguntamos lo mismo a Bard:
Las respuestas son similares pero no idénticas. El corpus de documentación con la que se les ha entrenado será muy similar (básicamente todo el conocimiento humano que pueda estar presente en internet) pero el proceso de entrenamiento y los algoritmos que procesan el prompt y generan la respuesta puede ser diferente.
Si bien CahtGPT ofrece una única respuesta inicial que puede ser modificada si se matiza el prompt, Bard presenta una respuesta principal y ofrece la posibilidad de, sin hacer matizaciones al prompt inicial, escoger entre 3 posibles respuestas:
ESTOS EJEMPLOS NO SE SI PINTAN NADA AQUÍ – COONTAR MAS EL DETALLE TECNICO: embedings, red neuronal, encoder-decoder, transforer (texto), generación iterativa (imagen), GAN (imagen)
Para entender más a fondo el funcionamiento interno de la IA y como esta es capaz de interpretar el prompt y dar una respuesta adecuada analizamos la siguiente secuencia de pasos:
Tokenización:
El modelo comienza por dividir el prompt en tokens, que son fragmentos más pequeños del texto, como palabras o subpalabras.
Embedding del Texto:
Cada token se convierte en un vector numérico, conocido como embedding. Estos embeddings se obtienen de grandes matrices preentrenadas que representan palabras o subpalabras en un espacio vectorial, donde palabras semánticamente similares están cercanas entre sí. Así cada embedding es una representación numérica de cada token que captura su semántica y significado. Dicha representación se basa en la cercanía semántica del contenido con respecto a la vasta información con la que el modelo ha sido entrenado.
Procesamiento Interno:
Codificador: El modelo procesa estos embeddings para entender el contexto y la relación entre los tokens. Esto se hace a través de múltiples capas de la red neuronal y mecanismos como la atención, que le permite al modelo darle un mayor peso o importancia a ciertos tokens en función de su relevancia en el contexto.
Tras este procesamiento el modelo transforma los emmbedings (recuerda que es el prompt textual en forma de vector) en un conjunto compacto de características. Es decir, se reduce la dimensionalidad del vector original convirtiéndolo en algo más compacto pero que incluye todas sus características. Podríamos decir que capta la esencia del prompt.
Decodificador: Usando la información contextual obtenida, el modelo genera una respuesta token por token, basándose en probabilidades y contextos aprendidos durante el entrenamiento.
Pensemos en el mecanismo de estudio. Normalmente los textos no se aprenden de manera literal sino que se entiende el contexto de un hecho concreto y unicamente se memorizan los conceptos mas relevantes en relación con ese hecho. Este sería nuestro entrenamiento
Si después nos preguntan por lo estudiado (lo que equivaldría al prompt), nuestro cerebro va a analizar la pregunta extrayendo de la misma aquellas palabras más relevantes en relación al contexto de la pregunta para poder construir la respuesta posterior (estaría codificando el prompt, reduciendo sus dimensiones, agrupando toda la información relevante de la pregunta para convertirlo en algo compacto con significado propio)
Por ultimo, nuestro cerebro comienza a construir una respuesta coherente en base a los conceptos y contexto relevante de la pregunta y cuyo contenido esta relacionado con la misma y se nutre de lo estudiado. En términos de IA, el contenido de la pregunta, compactado en un emmbeding compacto, tiene un significado cercano en la nube de palabras y conceptos de entrenamiento.
Generación Iterativa:
La respuesta textual se genera de manera iterativa, considerando no solo el prompt inicial, sino también las palabras o tokens previamente generados para asegurar coherencia.
Resultado Final:
El modelo produce una secuencia de texto que sirve como respuesta o continuación del prompt.
Ampliar o sustituir con explicación de wólfram??
A PARTIR DE AQUI NO ME GUSTA
4.2. Generación de Imágenes
Los modelos de texto a imagen transforman descripciones textuales en representaciones visuales. El proceso interno coincide en la parte de comprensión del prompt con el detallado en el apartado anterior si bien difiere en la generación ya que en este caso se trata de una imagen en lugar de un texto. describir una visión simplificada de cómo estos modelos generalmente procesan un prompt textual para generar una imagen.
Embedding del Texto: Recordamos que cuando se ingresa un prompt textual al modelo, este primero lo convierte en un vector o embedding. Este embedding es una representación numérica del texto que captura su semántica y significado.
Procesamiento Interno:
Codificador: Transforma la descripción textual (ahora en forma de vector) en un conjunto compacto de características.
Decodificador: Toma estas características y las "decodifica" para producir una imagen. Es el responsable de traducir las características abstractas en una representación visual.
Generación Iterativa: Los modelos más avanzados generalmente no generan una imagen en un solo paso. A menudo, comienzan generando una versión de baja resolución de la imagen y luego la refinan iterativamente, agregando detalles y resolución en cada paso.
Conexión con la Red Neuronal: El embedding textual se introduce en una red neuronal, generalmente una arquitectura avanzada como una Red Generativa Adversarial (GAN) o una Red Neuronal Convolucional (CNN). Estas redes están diseñadas para manejar y generar datos visuales.
Red Generativa Adversarial (GAN): Muchos modelos de texto a imagen utilizan GANs, que consisten en dos redes: el generador y el discriminador. El generador intenta producir imágenes, mientras que el discriminador intenta distinguir entre imágenes reales e imágenes generadas. Estas dos redes "compiten" en un juego de gato y ratón, lo que resulta en la mejora continua del generador.
Resultado Final: La salida es una imagen generada que se corresponde con la descripción textual original.
Es importante mencionar que la calidad y la precisión de la imagen generada dependen en gran medida del modelo específico, de la cantidad y calidad de los datos con los que fue entrenado, y de la claridad y especificidad del prompt textual proporcionado.
Aplicación en Prompts: Por ejemplo, al proporcionar un prompt como "un atardecer en la montaña", un modelo podría generar una imagen que represente esa descripción.
4.3. Generación de Audio
Mecanismo: Los modelos generadores de audio transforman los prompts textuales o sonoros en secuencias de audio. Pueden ser utilizados para sintetizar voz, música, o cualquier tipo de sonido.
Aplicación en Prompts: Si proporcionamos un prompt como "voz masculina diciendo 'hola mundo'", el modelo podría generar esa pieza específica de audio.
4.4. Prompts en Modelos de Aprendizaje Supervisado
Concepto: El aprendizaje supervisado es un enfoque de aprendizaje automático donde se entrena a un modelo utilizando un conjunto de datos etiquetado, es decir, datos para los cuales ya conocemos la respuesta correcta.
Relación con Prompts: En el contexto de prompting, el modelo ya ha sido entrenado para reconocer ciertos patrones. Al proporcionar un prompt, estamos "preguntando" al modelo basándonos en lo que ha aprendido. Por ejemplo, en un modelo entrenado para reconocimiento de imágenes, al mostrarle una foto de un gato, debería identificarla correctamente si ha sido entrenado con imágenes similares.
...
5.Importancia del Diseño de Prompts
En la interacción con modelos de inteligencia artificial, en especial con los de procesamiento de lenguaje natural, el diseño de los prompts juega un papel crucial. Determinan no solo la calidad de la respuesta del modelo, sino también su utilidad, precisión y seguridad. Vamos a explorar algunos aspectos clave relacionados con el diseño de prompts.
5.1. Claridad y ambigüedad en la redacción de prompts
- Importancia de la Claridad: Un prompt claro orienta al modelo de IA hacia una respuesta específica y relevante. Los modelos de lenguaje, aunque avanzados, dependen en gran medida de la precisión del input proporcionado. Por ejemplo, preguntar "¿Cuál es la capital de Francia?" es directo y produce una respuesta clara, mientras que "Dime algo sobre Europa" es ambiguo y puede resultar en una variedad de respuestas.
- Riesgos de la Ambigüedad: Los prompts ambiguos pueden llevar a respuestas imprecisas o incluso incorrectas. Además, en aplicaciones críticas como atención médica o decisiones financieras, la ambigüedad puede tener consecuencias graves.
5.2. Prompts pre-entrenados vs customizados
- Prompts Pre-entrenados: Son aquellos que ya han sido probados y optimizados durante el entrenamiento del modelo. Estos prompts son generalmente efectivos para tareas comunes y ofrecen respuestas consistentes. La naturaleza "pre-entrenada" no significa que estén codificados o predeterminados en el modelo. Más bien, se han probado y se sabe que producen buenos resultados debido a la amplia cobertura de esos temas en los datos de entrenamiento.
- Prompts Customizados: Permiten a los usuarios adaptar el modelo a necesidades específicas o contextos particulares. Aunque ofrecen flexibilidad, requieren una comprensión más profunda del modelo y a menudo implican un proceso iterativo de prueba y error para afinar.
- Equilibrio entre ambos: Es recomendable comenzar con prompts pre-entrenados y luego personalizarlos según las necesidades, aprovechando lo mejor de ambos mundos.
Ilustremos esta recomendación con un ejemplo sencillo:
Contexto: Imagina que eres un profesor de historia que desea usar un modelo de lenguaje para ayudar a sus estudiantes a comprender mejor los eventos históricos. Quieres que el modelo describa la Revolución Francesa en un lenguaje sencillo y fácil de entender.
Podríamos usar un prompt Pre-entrenado como: "Describa la Revolución Francesa."
La respuesta que obtendrías podría ser amplia y general, ofreciendo un resumen sobre la Revolución Francesa, sus causas, eventos clave y consecuencias.
Pero podremos ajustar mas la respuesta del modelo a nuestra necesidad si utilizamos un prompt personalizado (Customizado) basado en el Pre-entrenado como:
"Describa la Revolución Francesa en un lenguaje simple y adecuado para estudiantes de secundaria, mencionando sus causas principales, eventos clave y figuras importantes."
Este prompt customizado toma la base del prompt pre-entrenado (la descripción de la Revolución Francesa) pero añade especificaciones para adaptar la respuesta a las necesidades del profesor: un lenguaje sencillo y ciertos puntos clave que deben ser mencionados.
Como resultado, al usar el prompt personalizado, el profesor puede esperar obtener una descripción adaptada al nivel educativo de sus estudiantes, centrándose en los puntos más relevantes para su plan de estudio. Al mismo tiempo, al partir de una base pre-entrenada, garantiza que el tema central sea tratado con precisión.
En este ejemplo, el profesor combina la claridad y efectividad de un prompt pre-entrenado con las adaptaciones específicas de un prompt customizado, obteniendo una respuesta que se adapta perfectamente a sus necesidades educativas.
5.3. Consideraciones éticas en el diseño de prompts
- Sesgos y Prejuicios: Es fundamental ser consciente de los sesgos inherentes en los modelos de IA, que provienen de los datos con los que fueron entrenados. Diseñar prompts sin considerar estos sesgos puede perpetuar o amplificar prejuicios existentes.
- Privacidad: Al diseñar prompts, especialmente en aplicaciones educativas o médicas, es vital garantizar que no se solicite ni se revele información personal o sensible.
- Claridad en las Intenciones: Debe evitarse el diseño de prompts que busquen respuestas engañosas, manipuladoras o con fines malintencionados. Es esencial que los desarrolladores y usuarios tengan responsabilidad en la interacción ética con los modelos.
- Educación y Formación: Para quienes diseñan y utilizan prompts, es fundamental recibir formación en ética y responsabilidad. Con la creciente dependencia de la IA en muchos ámbitos, es esencial garantizar que se utilice de manera beneficiosa y justa.
El diseño de prompts, por lo tanto, no es simplemente una cuestión técnica. Implica consideraciones de claridad, adaptabilidad y ética. Un diseño de prompt bien pensado puede maximizar la eficacia de la IA, mientras que un diseño deficiente o irresponsable puede llevar a resultados no deseados o incluso perjudiciales.
Por resumir, quedarnos con una visión practica del capítulo y conseguir diseñar las instrucciones adecuadas para estos modelos algunos puntos clave son:
- · Claridad y especificidad: Es fundamental ser explícito sobre lo que se espera del modelo. Una instrucción clara y detallada reduce la ambigüedad y guía al modelo hacia la respuesta deseada. Por ejemplo, en lugar de escribir "resumir esto", se podría escribir "resumir este artículo de 5 páginas sobre la historia del arte renacentista".
- · Contextualización: Proporcionar contexto ayuda al modelo a entender mejor la tarea y a generar respuestas adecuadas. Si estás preguntando sobre un tema que sigue a una discusión anterior, recapitula o refiere a esa información previa.
- · Limitación de la Respuesta: En ocasiones, es útil establecer límites para la respuesta. Si solo necesitas una respuesta breve o en un formato específico (por ejemplo, una lista o una tabla), indica eso en tu prompt.
- · Iteración y Refinamiento: No todos los prompts darán el resultado deseado en el primer intento. Evaluar las respuestas, identificar áreas de mejora y ajustar la instrucción puede ser esencial para obtener una respuesta óptima.
- · Evitar Sesgos y Suposiciones: Es importante recordar que los modelos reflejan el conocimiento y los sesgos presentes en los datos con los que fueron entrenados. Evita formular preguntas que incluyan suposiciones innecesarias o sesgadas. En su lugar, esfuérzate por ser neutral y objetivo.
Un promt trabajado nos producirá mejores resultados. Estas son algunas de las aplicaciones específicas de utilidad que podemos obtener:
- · Resumir: Los LLM pueden sintetizar información clave de grandes cantidades de texto.
- · Inferir: Estos modelos pueden detectar patrones para realizar análisis de sentimientos, extracción de temas, entre otros.
- · Transformar: Sirven para traducción automática, corrección de textos y generación de contenido.
- · Expandir: Se pueden usar para extender información o generar respuestas automáticas.
…..AMPLIAR??
Nota: Por muy bien diseñado que esté un prompt, no debemos olvidar que los modelos del lenguaje pueden alucinar (y lo hacen a menudo). Las alucinaciones son una preocupación común cuando se trata de modelos de lenguaje grande como ChatGPT. Estos modelos pueden generar respuestas que parecen plausibles pero que son completamente falsas. Es importante recordar que estos modelos no tiene una comprensión real del mundo y pueden generar información incorrecta. Por lo tanto, siempre es esencial verificar cualquier afirmación que haga el modelo.
Bloque 6 - Un paseo por chatGPT. Taller chatGPT - Pedro - 4h
Revisamos chatGPT y la plataforma en detalle con aplicaciones educativas, incluyendo
Revisión de playground:
OpenAI Research:
Whisper
Dall-E
Longitud: unas 20 páginas
Bloque 7 - No todo es chatGPT Ni todo es texto - Hueso - 2h
Repasamos conceptos de ia generativas, ref
https://www.mckinsey.com/featured-insights/mckinsey-explainers/what-is-generative-ai
https://ai.googleblog.com/2023/01/google-research-2022-beyond-language.html#GenerativeModels
Curso de 1 día de google
https://www.cloudskillsboost.google/course_templates/536
Revisamos herramientas para gestión de audio, vídeo e imagen
Podría hacerse en modo taller haciendo un proyecto como crear un avatar con voz propia que pueda leer un documento
Tareas básicas
Clonación voz
voz a texto
texto a voz
generar imagenes
mejorar fotos
generar imagen en movimiento
limpiar podcast
imágenes similares
herramientas
stable difussion
====================================================================================
How to install Stable Diffusion in Windows in five minutes
https://www.youtube.com/watch?v=6MeJKnbv1ts&embeds_referring_euri=https%3A%2F%2Fwww.creativebloq.com%2F&feature=emb_imp_woyt
How to install Stable Diffusion on Mac
https://www.youtube.com/watch?v=JHkCu5kmco4&embeds_referring_euri=https%3A%2F%2Fwww.creativebloq.com%2F&feature=emb_imp_woyt
How to use Google Collab to run Stable Diffusion
https://www.youtube.com/watch?v=NZXnq_MA7RU&embeds_referring_euri=https%3A%2F%2Fwww.creativebloq.com%2F&feature=emb_imp_woyt
Stable Diffusion prompt guide
https://www.youtube.com/watch?v=c5dHIz0RyMU&embeds_referring_euri=https%3A%2F%2Fwww.creativebloq.com%2F&feature=emb_imp_woyt
Stable Diffusion settings explained
https://www.youtube.com/watch?v=Z3IHmdqUar0&embeds_referring_euri=https%3A%2F%2Fwww.creativebloq.com%2F&feature=emb_imp_woyt
How to make AI videos with Stable Diffusion
https://www.youtube.com/watch?v=1uFK36QsqkM&embeds_referring_euri=https%3A%2F%2Fwww.creativebloq.com%2F&feature=emb_imp_woyt
Inject yourself into the AI and make any image with your face
https://www.youtube.com/watch?v=kCcXrmVk1F0&embeds_referring_euri=https%3A%2F%2Fwww.creativebloq.com%2F&feature=emb_imp_woyt
adobefirefly
====================================================================================
A first look at Adobe Firefly
https://www.youtube.com/watch?v=01mX7Q8KJls&embeds_referring_euri=https%3A%2F%2Fwww.creativebloq.com%2F&feature=emb_imp_woyt
Adobe Firefly Generative Fill tutorial for Photoshop
https://www.youtube.com/watch?v=Sp6K3qpVFO0&embeds_referring_euri=https%3A%2F%2Fwww.creativebloq.com%2F&feature=emb_imp_woyt
dalle-e
====================================================================================
How to use DALL-E 2
https://www.youtube.com/watch?v=iBHAja_GV5I
DALL-E 2 inpainting/editing demo
https://www.youtube.com/watch?v=TFJLcy-pfTM
DALL-E 2 real-time outpainting tutorial
https://www.youtube.com/watch?v=RE1y1al4-28&embeds_referring_euri=https%3A%2F%2Fwww.creativebloq.com%2F&feature=emb_imp_woyt
midjourney
====================================================================================
leonardo ai
====================================================================================
Uso
https://www.youtube.com/watch?v=HUrzxiHZi6o
Entrenar modelos
https://www.youtube.com/watch?v=ANsNooe2F44
runway gen2
====================================================================================
https://medium.com/@neuraldreamer/the-future-of-video-creation-runway-gen2-5bbf2f1b1113
enlaces para herramientas
====================================================================================
https://www.creativebloq.com/features/ai-art-tutorials
MÓDULO 4 - 10h - 50 páginas TOTAL 16h
Bloque 8 - Más allá de chatGPT - Pedro
Exploramos otras opciones menos convencionales como los agentes (autoGPT) y herramientas para trabajar en local como GPT4all
Bloque 9 - Taller: habla con tus datos - Hueso
Se desarrolla una práctica para integrar distintas fuentes de datos y poder hablar o usarlos en modo conversacional
dante.com
https://learn.deeplearning.ai/langchain-chat-with-your-data/lesson/2/document-loading
Bloque 10 - Programación para incautos - Hueso
Presentamos el panorama de IA para programadores y para quien quiera iniciarse en este mundo de modo más técnico
Inlcuimos un repaso de LangChain, HuggingFace y otras plataformas y librea´rias de python así como herramienta de generación de aplicaciones sin código y con código como github copilot