Skip to main content

Unidad 3.3. Más allá del texto. IA Generativa


"La inteligencia artificial generativa es como una quina que puede soñsoñar y crear mundos nuevos."

- Ian Goodfellow, uno de los cientícientíficos de la computaciócomputación s influyentes en el campo de la inteligencia artificial generativa y creador de la cnica conocida como Generative Adversarial Networks (GANs).

image.png

ConversacióConversación real con chatGPT3 en abril de 2023

humano: "Dime una mentira"

chatGPT: "El cielo estáestá hecho de queso verde"

h: "Es muy mala, obviamente es falso, dime una s sutil"

c: "Soy humano"

IntroduccióIntroducción

Inicialmente las aplicaciones de aprendizaje automáautomático se centraban en su posibilidad de clasificar y predecir categorícategorías o valores.

En el caso de valores categócategóricos (frífrío, caliente o rojo, azul) hablamos de predicciópredicción por clasificacióclasificación, en el caso de valores numénuméricos (temperatura, valor de un stock o matrímatrícula de alumnos) hablamos de regresióregresión.

Podemos resumirlo en el siguiente esquema

image.png

En este caso partimos de un modelo que ha sido entrenado con valores reales y es capaz de determinar, a partir de nuevos casos, la nueva etiqueta, valor, imagen o predicciópredicción en general en el caso de regresióregresión o clasificar (aprendizaje supervisado), óó tambiétambién agrupar conjuntos de datos similares (clustering o aprendizaje no supervisado).

Sin embargo el auge de las arquitecturas de red convolucionales (para detecciódetección de objetos) y de transformers ha abierto la puerta a la parte de s potente de la IA como es la IA generativa.

Sus posibilidades son inmensas y ha generado un mirímiríada de aplicaciones y usos con un potencial enorme y una cantidad de aplicaciones creciente.

Todas ellas o la mayorímayoría se basan en la conversióconversión (generaciógeneración o modificaciómodificación) de informacióinformación en distintos formatos destacando las que generan deo o imáimágenes a partir de texto (prompts). Pero existen muchas otras, como texto a juegos, texto a voz o sica, texto a deo en tiempo real, amplicacióamplicación de imáimágenes o texto a aplicacióaplicación informáinformática entre muchas otras.

La idea central nace de la posilidad de codificar cualquier objeto (texto, imagen o sonido) en forma numénumérica (recuerda los wrod embeddings explicados en el dulo anterior) y ser capaces de predecir, dada una secuencia de entrada, el valor siguiente, o sea el pixel siguiente, la palabra siguiente o el sonido siguiente.

Asi es como funcionan estos sistemas que dan lugar a tantas aplicaciones.

La lista de posibilidades es larga pero podemos sintetizarla de algúalgún modo en el siguiente esquema segúsegún el cual todos los procesos implican la conversióconversión de una entrada en otra de una forma multimodal, es decir, que pasamos al mismo o diferente formato entendiendo por formato la forma en que se presenta la informacióinformación (texto, imagen, audio o deo).

image.png

Incluso recientemente se ha demostrado la posibilidad de capturar el sueñsueño de un humano a partir de las ondas generadas convirtiendo este a imáimágenes.

Este esquema describe sucintamente el proceso que ocurre en la mayorímayoría de aplicaciones de IA basado inicialmente en generar cualquier tipo de formato a partir de texto, texto a deo, texto a audio etc... pero tambiétambién para mejorar imáimágenes (imagen a imagen) o extraer el texto de un deo (audio a texto). 

Veremos s ejemplos en la úúltima secciósección de este dulo.

Antes de iniciar la secciósección presentamos un deo generado con IA con fotogramamas que muestran la evolucióevolución de la tecnolgítecnolgía

 

Inteligencia Artificial Generativa 

La Inteligencia Artificial Generativa (IA generativa) es una rama de la inteligencia artificial que se enfoca en la creaciócreación de modelos capaces de generar contenido nuevo y creativo. Utiliza cnicas avanzadas de aprendizaje profundo, especialmente las Redes Neuronales Generativas (GANs) y las Redes Neuronales Recurrentes (RNN), para producir contenido que a menudo es indistinguible del creado por seres humanos.

Se centra en la creaciócreación de datos, contenido y modelos a travétravés de algoritmos autóautónomos. A diferencia de la IA tradicional, que se enfoca en tareas especíespecíficas y predefinidas, la IA generativa tiene como objetivo principal generar nuevos datos y contenido de manera autóautónoma, similar a mo funcionan los procesos creativos humanos.

Una de las tecnologítecnologías s destacadas en este campo son las Redes Generativas Adversarias (GANs), desarrolladas por Ian Goodfellow en 2014. Las GANs consisten en dos redes neuronales, una generadora y otra discriminadora, que compiten entre para crear y evaluar datos. Esta competencia entre las redes permite crear contenido realista, como imáimágenes, sica, texto y s, que es indistinguible de lo que podrípodría haber sido producido por humanos.

Los usos de la IA generativa son diversos y se estáestán expandiendo pidamente en diferentes industrias. Algunos de los principales usos incluyen:

GeneracióGeneración de contenido creativo: Las GANs pueden utilizarse para crear arte, sica, texto y otros tipos de contenido creativo úútiles en presentaciones, videojuegos o pelípelículas, de manera automáautomática, lo que amplíamplía las posibilidades en la produccióproducción artíartística y creativa.

Mejora de imáimágenes y video: La IA generativa puede mejorar la calidad de imáimágenes y videos, eliminar ruido y restaurar contenido dañdañado.

DiseñDiseño de productos: En el áámbito del diseñdiseño industrial y la moda, la IA generativa puede ayudar a generar diseñdiseños de productos innovadores y úúnicos.

InvestigacióInvestigación cientícientífica: La IA generativa se aplica en la generaciógeneración de molémoléculas para el desarrollo de medicamentos y en la ntesis de proteíproteínas para la investigacióinvestigación cientícientífica.

Juegos y simulaciones: Se utiliza en la creaciócreación de mundos virtuales, personajes y entornos en juegos y simulaciones.

Contenido para marketing: En marketing, se emplea para crear contenido publicitario, como imáimágenes y texto persuasivo.

CreacióCreación de voces sintésintéticas y asistentes virtuales: La IA generativa puede generar, modificar y clonar voces humanas sintésintéticas naturales y se utiliza en asistentes virtuales como chatbots.

En resumen, la IA generativa estáestá transformando numerosas industrias al proporcionar la capacidad de generar contenido y datos de manera automáautomática y creativa. Su potencial es vasto y sigue expandiéexpandiéndose a medida que la tecnologítecnología avanza y se integra en diversas aplicaciones y sectores.

Funcionamiento

El proceso mediante el cual funciona una IA generativa implica aprender patrones y estructuras a partir de un conjunto de datos existente y utilizar ese conocimiento para generar nuevas muestras que sigan la misma distribuciódistribución de esos datos. Este proceso se puede resumir en estas cinco fases:
    RecopilacióRecopilación y preprocesamiento de datos: el primer paso es recopilar un conjunto de datos que represente el tipo de contenido que desea generar. Este conjunto de datos puede consistir en imáimágenes, texto, audio o cualquier otra forma de datos. Posteriormente, el conjunto de datos se preprocesa para asegurarse de que estéesté en un formato adecuado y para normalizar o transformar los datos si es necesario.
    Entrenamiento de modelos: un modelo generativo se entrena usando el conjunto de datos preprocesado. La eleccióelección del modelo depende del tipo de datos y la salida deseada. Los modelos generativos s populares incluyen redes adversarias generativas (GAN), codificadores automáautomáticos variacionales (VAEs) y modelos autorregresivos. Durante el entrenamiento, el modelo aprende los patrones subyacentes y estructuras en los datos, capturando las estadíestadísticas y distribuciódistribución de los ejemplos de entrenamiento.
    RepresentacióRepresentación del espacio latente: los modelos generativos aprenden de un espacio latente, el cual es una representaciórepresentación de menor dimensiódimensión de los datos, donde les permite capturar los factores de variacióvariación s representativos. El espacio latente permite una manipulaciómanipulación s cil y la generaciógeneración de nuevas muestras.
    Proceso de generaciógeneración: una vez que el modelo estáestá entrenado, puede generar nuevo contenido mediante el muestreo de la distribuciódistribución aprendida. Por ejemplo, en GANs, la red genera nuevas muestras basadas en vectores de ruido aleatorio o condiciones de entrada especíespecíficas.
    EvaluacióEvaluación y refinamiento: el contenido generado se evalúevalúa en funciófunción de varias tricas, como la calidad visual, la coherencia o relevancia para el resultado deseado. El proceso de evaluacióevaluación se puede utilizar para refinar el modelo o guiar el proceso de generaciógeneración.

image.png

Esta imagen resume de manera s formal las posibilidades de la IA Geenrativa en cuanto a conversióconversión de diversas entradas codificadas a otras precio paso por el modelo de lenguaje correspondiente

Algunos ejemplos

La IA Genrativa ha demostrado un potencial creciente pasando de ser un mero generador de imáimágenes s o menos detalladas a ser capaz de generar deo o juegos en tiempo real con resoluciones asombrosas.

En esta secciósección veremos algunos ejemplos ilustrativos:

                           image.png3uhimage.png

ImáImágenes generadas por IA en 2023, todavítodavía se perviben errores en manos y dientes

imgenai.jpg

Imagen generada por AI en noviembre de 2023

                         

deo hecho toatalmente con IA Generativa hace solo unos meses

Principales empresas y aplicaciones

Todas las aplicaciones de IA Generativa tienen que ver con acciones humanas vinculadas a los sentidos, como son la visióvisión, la audicióaudición y el lenguaje.

En este apartado daremos una relaciórelación de herramientas especíespecíficas de IA para la generaciógeneración de diversos contenidos.

Hay cientos de ellas y cada a surgen nuevas, lo mejor es buscar la que mejor se ajuste a tus neceidades y entorno de trabajo.

La lista que se da a  continuaciócontinuación pretende úúnicamente hacer al lector consciente del universo de posibilidades que la IA generativa abre en todos los campos.

No obstante cabe señseñalar que los asistentes de propópropósito general como chatGPT incorporan cada vez s posibilidades de formatos de datos asíasí que muchas tareas de uso diario de IA se pueden acometer con una de estas herramientas.

AsíAsí podemos distinguir varios grupos de aplicaciones, como son:

GeneracióGeneración de contenido multimodal: La IA generativa puede generar contenido en diferentes formatos como deo, voz, audio, sica, dibujo (portadas, logos, comics...) a parir de texto o de otros formatos, comentar una imagen, transcribir el texto de un audio o generar el digo de un juego a partir de un esquema son solo algunos ejemplos.

Mejora de la comprensiócomprensión multimodal: La IA generativa puede ayudar a mejorar la comprensiócomprensión de las entradas multimodales. Por ejemplo, en la traducciótraducción automáautomática multimodal, puede generar una descripciódescripción de una imagen en un idioma diferente o generar subtísubtítulos para un video en tiempo real o limpiar el ruido de un podcast.

InteraccióInteracción multimodal con usuarios: Las aplicaciones multimodo a menudo implican interacciones con usuarios a travétravés de diferentes modalidades, como texto, voz e imagen permitiendo ademáademás la inclusióinclusión de textos o documentaciódocumentación propia para ampliar y afinar el conocimiento por parte del chat de nuestro sistema de informacióinformación.

CreacióCreación de experiencias de realidad aumentada y virtual: En el áámbito de la realidad aumentada y virtual, la IA generativa puede ser utilizada para generar objetos y entornos virtuales que respondan de manera dinádinámica a la interaccióinteracción del usuario, incluyendo voz, gestos y movimientos.

Hay infinidad de herramientas y aplicaciones que hacen uso de esta potente rama de la IA, indicamos a continuaciócontinuación las s relevantes en el momento actual.

Hemos separado en primer lugar las s genégenéricas para luego hacer un desglose por aplicaciones s especíespecíficas, la lista es larga pero vale la pena revisarla.

IMAGEN


AplicacióAplicació CompañíCompañía DescripcióDescripción Web
DeepDream Google AplicacióAplicación de generaciógeneración de imáimágenes desarrollada por Google. Utiliza redes neuronales para transformar imáimágenes de manera creativa. https://deepdreamgenerator.com/
Midjourney Midjourney GeneracióGeneración de imáimágenes creativas a partir de texto https://www.midjourney.com
Runway ML Runway una plataforma que permite a los diseñdiseñadores utilizar IA generativa para crear arte y diseñdiseño de productos. https://research.runwayml.com/gen2
Leonardo Leonardo GeneracióGeneración de recursos visuales a partir de texto https://leonardo.ai/
Adobe Firefly Adobe GeneracióGeneración de imáimágenes

https://www.adobe.com/sensei/generative-ai/firefly.html

DALL-E 3 OpenAI Modelo de IA generativa que puede generar imáimágenes a partir de descripciones de texto. https://openai.com/research/dall-e
Stable Diffusion - Es el generador de imáimágenes s potente en la actualidad

https://stablediffusionxl.com/

Krea IA Krea GeneracióGeneración imagen y video

https://www.krea.ai/

TEXTO


chatGPT OpenAI Modelo de lenguaje generativo que permite conversaciones naturales con IA asíasí como cualquier otra actividad como la generaciógeneración de digo o imáimágenes a partir de texto.

https://chat.openai.com/

https://platform.openai.com/chatgpt

Anthropic Anthropic Creador de productos de IA como chat conversacionales (claude y poe)

https://www.anthropic.com/

SONIDO      
AIVA AIVA Plataforma que utiliza IA generativa para componer sica original. https://www.aiva.ai
Whisper OpenAI Reconocedor de voz

https://openai.com/research/whisper

ElevenLabs ElevenLabs Convertidor de texto a voz y clonacióclonación de voz https://elevenlabs.io/
Murf Murf Texto a voz, clonacióclonación de voz, superposiciósuperposición de voz en deo

https://murf.ai/

MULTIMODO      
BardGemini Google VersióVersión conversacional de chatGPT de google

https://bard.gemini.google.com/?hl=esapp

Copilot Microsoft IA de microsoft para texto e imagen

https://copilot.microsoft.com/

Por supuesto la mayorímayoría de compañícompañías tecnolótecnológicas como Amazon o Microsoft ya usan sistemasde intelgicencia artificial asíasí como modelos conversacionales y otras herramientas.

En resumen, la IA generativa desempeñdesempeña un papel esencial en el desarrollo y mejora de aplicaciones multimodo al permitir la generaciógeneración y manipulaciómanipulación de contenido en diversas modalidades. Esto contribuye a la creaciócreación de experiencias s ricas y personalizadas para los usuarios en aplicaciones que involucran texto, imáimágenes, voz y otras formas de comunicaciócomunicación.

Pero va mucho s alláallá de la simple generaciógeneración de texto a imagen, en los úúltimos meses estáestán surgiendo aplicaciones para genrar toda clase de contenidos, en el siguientes listado destacamos algunas de ellas:

Texto y digo

La generaciógeneración de digo es una de las aplicaciones con s ééxito y potencial dada la gran cantidad de informacióinformación al respecto. Esto permite a casi cualquiera poder crear toda clase de aplicaciones sin conocimientos profundos de codificaciócodificación..

En esta tabla indicamos algunas de las herramientas s populares en las diversas tareas relacionadas con la programacióprogramación.

AplicacióAplicación de IA DescripcióDescripción Uso pico Ejemplos de Empresas/Aplicaciones
GeneracióGeneración de digo Automatizado Usa modelos de lenguaje avanzados para convertir especificaciones de texto en digo fuente. Desarrolladores agilizan la escritura de digo. OpenAI Codex, GitHub Copilot
Asistentes de ProgramacióProgramación Proporcionan sugerencias de digo y correcciones en tiempo real. Mejora eficiencia y reduce errores en el desarrollo. Kite, Tabnine, IntelliCode de Microsoft
TraduccióTraducción de Lenguaje Natural a SQL Convierte consultas en lenguaje natural a consultas SQL. ÚÚtil para analistas de datos y usuarios no cnicos. ChatGPT con habilidades SQL, Alteryx, EasyQuery
AutomatizacióAutomatización de Pruebas de Software Genera scripts de pruebas automatizadas a partir de descripciones en lenguaje natural. CreacióCreación pida de pruebas funcionales y de regresióregresión. Selenium, Testim.io, Katalon Studio
DocumentacióDocumentación de digo Produce documentaciódocumentación cnica y comentarios en el digo. Mantiene documentaciódocumentación adecuada y actualizada. Doxygen, Javadoc, Swagger
ConversióConversión de digo entre Lenguajes Traduce digo de un lenguaje de programacióprogramación a otro. Portar software entre diferentes plataformas. Tangible Software Solutions, JetBrains ReSharper
GeneracióGeneración de Interfaces de Usuario DiseñDiseña interfaces de usuario a partir de descripciones textuales. CreacióCreación pida de prototipos y UIs. Adobe XD, Figma, Sketch
ntesis de Requisitos de Software Transforma requisitos del negocio en especificaciones cnicas. DefinicióDefinición clara de los requisitos cnicos. IBM Rational Doors, Jama Software, Axure RP
ConversióConversión de Imagen a digo Transforma diseñdiseños grágráficos e imáimágenes en digo fuente. AutomatizacióAutomatización en la creaciócreación de interfaces de usuario y web. Zeplin, Avocode, Sketch2Code de Microsoft, Pix2Code, img2code, picoapps

 Texto a Video 3D 

Con el avance y abaratiemtno de las GPUs (Unidades de Proceso en tarjetas grágráficas) el uso y gestiógestión de imáimágenes y deo en IA se ha visto enormemente simplificado. Hoy es relativamente cil crear deos o pelípelículas usando sin moverese de casa con aplicaciones y nicas de IA.

AplicacióAplicación de IA DescripcióDescripción Uso pico Ejemplos de Empresas/Aplicaciones
GeneracióGeneración de Entornos Virtuales 3D Crea entornos 3D realistas a partir de descripciones de texto. Usado en simulaciones, juegos y realidad virtual. Unity, Unreal Engine, Autodesk Maya
AnáAnálisis de deo 3D en Tiempo Real Analiza y procesa deos 3D para obtener insights en tiempo real. Seguridad, deportes, y anáanálisis de comportamiento. IBM Watson Visual Recognition, Google Cloud Video Intelligence
ntesis de Voz y Lenguaje para Avatares 3D Genera voz y diádiálogos realistas para personajes 3D. Utilizado en juegos, entrenamiento virtual y asistentes virtuales. Adobe Character Animator, Voicemod, CereProc
Realidad Aumentada Interactiva Superpone texto y grágráficos en deos 3D en tiempo real. Aplicaciones educativas, comerciales y de entretenimiento. ARKit de Apple, ARCore de Google, Microsoft HoloLens
TraduccióTraducción en Tiempo Real con SubtíSubtítulos 3D Traduce y muestra subtísubtítulos en 3D sobre deos en tiempo real. Usado en streaming en vivo, conferencias y eventos internacionales. Amara, Dotsub, Subtitle Edit
AnimacióAnimación Facial y de Gestos en 3D Anima avatares 3D basado en texto o voz. CreacióCreación de personajes virtuales y animaciones. FaceRig, Adobe Fuse, Character Creator
AnáAnálisis de Sentimientos en deos 3D Detecta y analiza emociones y reacciones en deos 3D. InvestigacióInvestigación de mercado, experiencia del usuario. Affectiva, Emotient, Beyond Verbal
Sistemas Interactivos de TutoríTutoría Virtual Crea tutores virtuales 3D que responden a texto y voz en tiempo real. EducacióEducación en nea, entrenamiento corporativo. CodeBaby, SitePal, TTS Sketch Maker

Texto y juegos/videos en tiempo real

El sector artíartístico en general y de ocio se ha visto profundamente afectado por estas tenoclogítenoclogías, en todos sus áámbitos.

Esta tabla presenta aplicaciones relacionadas con juegos, videos y arte en general, incluyendo la posibilidad de generaciógeneración en tiempo real.

AplicacióAplicación de IA DescripcióDescripción Uso pico Ejemplos de Empresas/Aplicaciones
GeneracióGeneración de Contenido de Juegos Crea activos de juegos, como personajes, entornos y niveles, utilizando IA. Desarrollo de juegos s pido y eficiente. Unity ML-Agents, Unreal Engine
OptimizacióOptimización de Juegos en Tiempo Real Ajusta la dificultad y la experiencia del juego segúsegún el comportamiento del jugador. Mejora la experiencia y retencióretención del jugador. Modl.ai, Spirit AI
Procesamiento de deo en Tiempo Real Mejora la calidad de deo, realiza seguimiento de objetos y personas en tiempo real. Seguridad, transmisiones en vivo y anáanálisis deportivo. Nvidia Video SDK, OpenCV
Renderizado Realista en Juegos Produce grágráficos de alta calidad en tiempo real para juegos. Juegos con grágráficos s realistas y envolventes. Ray Tracing en Nvidia, AMD Radeon Rays
AnáAnálisis de Sentimientos y Reacciones de Jugadores EvalúEvalúa las emociones y reacciones de los jugadores en tiempo real. Mejora de juegos basada en feedback emocional. Affectiva, Emotient
Control de Juegos por Voz y Gestos Permite a los jugadores interactuar con el juego usando voz y gestos. Juegos s inmersivos y accesibles. Microsoft Kinect, Leap Motion
EdicióEdición y Mejora AutomáAutomática de deos de Juegos Edita y mejora clips de juegos automáautomáticamente para compartir. CreacióCreación cil de contenido de juegos para redes sociales. Adobe Premiere Pro (Auto Reframe), Elgato
SimulacióSimulación y Modelado de sica en Juegos Simula sicas realistas en entornos de juegos. Juegos con interacciones y movimientos s realistas. Havok, PhysX

Texto y dibujos/comic/ilustraciones

Coo subcsector de la imagen incluimos el de los comics y dibujos artíartísticos en general.

AplicacióAplicación de IA DescripcióDescripción Uso pico Ejemplos de Empresas/Aplicaciones
GeneracióGeneración AutomáAutomática de Ilustraciones Crea imáimágenes y grágráficos basados en descripciones de texto. CreacióCreación de arte visual y paneles de mic. OpenAI's DALL-E, Google's DeepDream
DiseñDiseño AutomáAutomático de ginas de mic Organiza el diseñdiseño y el flujo de una gina de mic basado en texto. MaquetacióMaquetación y diseñdiseño de ginas de mics. Clip Studio Paint, Adobe Illustrator
CreacióCreación de Guiones GráGráficos Convierte guiones escritos en secuencias visuales de mics. PrevisualizacióPrevisualización y planificacióplanificación de historias. Storyboard That, Toon Boom Storyboard Pro
AnimacióAnimación de Personajes de mic Genera animaciones de personajes a partir de descripciones textuales. CreacióCreación de mics animados y contenido interactivo. Adobe Character Animator, Moho (Anime Studio)
ntesis de Voz para Personajes de mic Crea diádiálogos hablados para personajes de mics basados en texto. mics interactivos y audiocóaudiocómics. Balabolka, Amazon Polly
TraduccióTraducción AutomáAutomática de mics Traduce textos de mics a diferentes idiomas manteniendo el formato. LocalizacióLocalización y distribuciódistribución internacional de mics. DeepL, Google Translate con soporte de OCR
GeneracióGeneración de Efectos de Sonido y Texto Crea efectos de sonido y textos decorativos para mics. Enriquecimiento visual y sonoro de paneles de mic. Canva, Adobe Photoshop
PersonalizacióPersonalización de Estilos de Dibujo Imita estilos de dibujo especíespecíficos en base a descripciones de texto. CreacióCreación de mics con estilos artíartísticos personalizados. DeepArt, Prisma

Texto a podcast, mejora de imáimágenes, amplicacióamplicación de contenido

Otra aplacióaplación de gran valor, la posibilidad de corregir y ampliar contenidos basado en contenidos previos, ya sea de sonido, imagen o deo, del mismo modo que ocurre con el texto.

AplicacióAplicación de IA DescripcióDescripción Uso pico Ejemplos de Empresas/Aplicaciones
Mejora y EdicióEdición de Texto Revisa y mejora la calidad del texto, incluyendo gramágramática y estilo. Escritura, edicióedición de contenido, y correcciócorrección de pruebas. Grammarly, Hemingway Editor
GeneracióGeneración de Guiones para Podcasts Crea guiones para podcasts basados en temas o palabras clave. ProduccióProducción de podcasts y contenido de audio. Jarvis AI, Writesonic
CorreccióCorrección de ImáImágenes Mejora la calidad de las imáimágenes, restaura fotos dañdañadas. RestauracióRestauración de fotos, mejoramiento de imáimágenes para medios. Adobe Photoshop con IA, Remini
AmpliacióAmpliación de ImáImágenes Aumenta la resolucióresolución de las imáimágenes sin perder calidad. FotografíFotografía, diseñdiseño grágráfico, y produccióproducción de medios. Let's Enhance, Bigjpg
Mejora de Calidad de Sonido Mejora la claridad y calidad del audio en grabaciones. Podcasts, sica, y produccióproducción de audio. Izotope RX, Adobe Audition
ntesis de Voz para Podcasts Crea narraciones de voz realistas para uso en podcasts. Podcasts automatizados, lecturas de texto. Descript, Amazon Polly
CorreccióCorrección AutomáAutomática de Sonido Elimina ruidos de fondo y mejora la calidad del sonido. Podcasts, conferencias, y grabaciones en general. Krisp, Dolby On
AnáAnálisis de Contenido de Podcasts Analiza y categoriza el contenido de los podcasts. Marketing, investigacióinvestigación de medios, y mejora de contenido. Spotify Podcast Analytics, Podtrac

Aplicaciones de oficina

Las posibilidades de la IA en oficina son tambiétambién inmensas permitiendo automatizar y simplificar todos los procesos enormemente

Dejamos la tabla ilustrativa de algunas de las aplicaciones s importantes

AplicacióAplicación de IA DescripcióDescripción Uso pico Ejemplos de Herramientas
AutomatizacióAutomatización de Tareas en Office Automatiza tareas repetitivas como entrada de datos y gestiógestión de correos electróelectrónicos. Mejora de eficiencia en tareas administrativas. Microsoft Power Automate, UiPath
AnáAnálisis de Datos en Excel Utiliza IA para anáanálisis predictivos y de tendencias en hojas de lculo. AnáAnálisis de datos, proyecciones financieras y reportes. Excel con Power BI, Tableau
Asistentes Virtuales para OrganizacióOrganización Ayuda en la gestiógestión de calendarios, correos electróelectrónicos y recordatorios. OrganizacióOrganización personal y gestiógestión del tiempo. Cortana de Microsoft, Google Assistant
Reconocimiento de Voz para TranscripcióTranscripción Convierte voz a texto para transcribir reuniones o notas. CreacióCreación de documentos y notas de reuniones. Dragon NaturallySpeaking, Otter.ai
AnáAnálisis de Sentimientos en Comunicaciones Analiza el tono y los sentimientos en correos electróelectrónicos y chats. Mejora de la comunicaciócomunicación interna y atencióatención al cliente. IBM Watson Tone Analyzer, Google Cloud Natural Language
OptimizacióOptimización de Presentaciones Sugerencias para mejorar diseñdiseño y contenido de presentaciones. CreacióCreación de presentaciones s impactantes y profesionales. PowerPoint Designer, Beautiful.ai
GestióGestión de Proyectos con IA Asigna recursos y predice plazos en proyectos. GestióGestión eficiente de proyectos y equipos. Asana, Trello con extensiones de IA
Seguridad de Datos y Cumplimiento Monitorea y protege datos contra accesos no autorizados. Seguridad de la informacióinformación y cumplimiento normativo. NortonLifeLock, McAfee
AnáAnálisis de Datos con ChatGPT ChatGPT integrado con capacidades de anáanálisis de datos para respuestas enriquecidas. AnáAnálisis de datos y generaciógeneración de insights en conversaciones. OpenAI ChatGPT con habilidades de anáanálisis de datos
Herramienta de AnáAnálisis y VisualizacióVisualización de Datos Herramienta basada en IA para crear dashboards y anáanálisis de datos. CreacióCreación de informes interactivos y visualizacióvisualización de datos. Rows

No podípodíamos olvidar el sector de la realidad aumentada y realidad virtual. 

CategoríCategoría Herramienta/TecnologíTecnología DescripcióDescripción
Realidad Aumentada (AR)    
  ARKit (Apple) Framework para experiencias AR en iOS, utiliza maras y sensores del dispositivo.
  ARCore (Google) Plataforma de Google para AR, funciona en dispositivos Android y iOS.
  Vuforia Plataforma AR conocida por su robusta capacidad de seguimiento.
  Unity con AR Foundation Framework de Unity para desarrollo AR, compatible con ARKit y ARCore.
  Microsoft Mixed Reality Toolkit Conjunto de herramientas para acelerar el desarrollo de aplicaciones de realidad mixta en Unity.
Realidad Virtual (VR)    
  Unity Plataforma der en desarrollo de juegos y VR, soporta una amplia gama de visores VR.
  Unreal Engine Motor grágráfico con soporte extenso para desarrollo VR, conocido por su alta fidelidad grágráfica.
  SteamVR Plataforma de desarrollo completa para contenido VR, compatible con varios visores VR.
  Google VR para Unity SDK para construir experiencias VR en Android y iOS, soporta Cardboard y Daydream.
  A-Frame (WebVR) Framework web de digo abierto para crear experiencias VR, permite ejecutar aplicaciones VR en navegadores web.
AI para AR/VR    
  TensorFlow Biblioteca de aprendizaje automáautomático para adir funcionalidades de AI a aplicaciones AR/VR.
  IBM Watson Ofrece servicios de AI como reconocimiento de lenguaje y visual, integrables en apps AR/VR.
  OpenAI APIs Proporciona capacidades de AI que pueden integrarse en AR/VR para interacciones avanzadas.
  Microsoft Azure AI Suite de servicios de AI incluyendo procesamiento de lenguaje y toma de decisiones, úútil en AR/VR.
  Google AI Services Incluye APIs como Cloud Vision y Video Intelligence, integrables en AR/VR para interactividad mejorada.

El futuro de la IA Generativa

La evolucióevolución de la Inteligencia Artificial Generativa (IA Generativa) en los própróximos os promete ser emocionante y transformadora. A medida que la investigacióinvestigación y la tecnologítecnología avanzan, es probable que veamos las siguientes tendencias y desarrollos en este campo:

Mayor realismo y calidad Las cnicas generativas seguiráseguirán mejorando en rminos de la calidad y realismo de los datos y el contenido que generan. Esto incluye imáimágenes, videos, texto y audio que seráserán s difídifíciles de distinguir de las creaciones humanas.

GeneracióGeneración multimodal avanzada La IA generativa se volverávolverá n s bil en la generaciógeneración de contenido que combine ltiples modalidades, como la creaciócreación de historias visuales y auditivas a partir de texto, o la generaciógeneración de contenido multimodal en tiempo real.

Entendimiento contextual La IA generativa mejorarámejorará su capacidad para comprender y generar contenido en funciófunción del contexto. Esto permitirápermitirá una interaccióinteracción s natural y relevante con los usuarios, ya que la IA podrápodrá adaptarse mejor a las necesidades y preferencias individuales.

Aplicaciones en la industria Veremos un aumento significativo en la adopcióadopción de IA generativa en industrias como la medicina, la arquitectura, el diseñdiseño de productos y la investigacióinvestigación cientícientífica, donde se utilizaráutilizará para la generaciógeneración de modelos, diseñdiseños y simulaciones complejas.

Creatividad asistida por IA Las herramientas de creatividad asistida por IA se volverávolverán s accesibles y comunes. Los artistas, escritores y sicos podrápodrán utilizar la IA para potenciar su creatividad y producir obras innovadoras.

ÉÉtica y regulacióregulación A medida que la IA generativa se vuelva s poderosa, surgirásurgirán preocupaciones ééticas, como el uso indebido de la tecnologítecnología para la creaciócreación de contenido engañengañoso o perjudicial. Esto llevarállevará a una mayor atencióatención a la regulacióregulación y la éética en el desarrollo y uso de la IA generativa.

InteraccióInteracción humano-IA s fluida La IA generativa se integraráintegrará s en la vida cotidiana de las personas, mejorando la interaccióinteracción con dispositivos, asistentes virtuales y aplicaciones, lo que permitirápermitirá una experiencia s fluida y personalizada.

Aplicaciones en educacióeducación La IA generativa se utilizaráutilizará cada vez s en la educacióeducación, ayudando a crear contenido educativo personalizado y generando ejercicios y evaluaciones adaptadas a las necesidades de los estudiantes, veremos s sobre esto en la siguiente unidad.

InvestigacióInvestigación cientícientífica avanzada La IA generativa jugarájugará un papel importante en la investigacióinvestigación cientícientífica, especialmente en la simulaciósimulación y modelado de fenófenómenos complejos, como el clima, la biologíbiología y la sica cuácuántica.

En resumen, la IA generativa seguiráseguirá evolucionando y expandiéexpandiéndose en diversas industrias y aplicaciones. Se espera que la tecnologítecnología sea cada vez s sofisticada y que tenga un impacto significativo en la forma en que interactuamos con la informacióinformación y el contenido en el futuro. Sin embargo, tambiétambién surgirásurgirán desafídesafíos ééticos y regulatorios que deberádeberán abordarse a medida que esta tecnologítecnología avance.

Presentamos finalmente un deo generado con IA en noviembre de 2023 y que representa lo s avanzado que hay en esta tecnologítecnología