Skip to main content

Unidad 3.1. Posibilidades de la IA

Introducción

Hemos repasado la historia de las ideas y avances que han llevado a la IA al momento actual. Hemos visto que la IA ya es una realidad en nuestra sociedad y que tiene una gran importancia en la economía y un enorme potencial por delante. También hemos podido analizar su funcionamiento, lo que sin duda nos ayudará a entenderla un poco mejor y a poder sacar un mejor provecho de la misma cuando empecemos a explorar las posibilidades que  nos ofrece.

En esta unidad vamos a entrar en el mundo de posibilidades que se abre ante nosotros, repasando y analizando las posibles aplicaciones de la IA.


Posibilidades de la IA

La Inteligencia Artificial tiene una gran cantidad de aplicaciones en varios campos. Muchas de ellas, ya las hemos visto en unidades anteriores, ya fuera al exponer las aplicaciones actuales de la IA o al analizar el funcionamiento de la misma. Si bien ahora vamos a entrar a profundizar en las posibilidades de uso "cotidiano" de manera que podamos extraer conclusiones sobre la utilidad que nos pueden reportar. Aquí hay una descripción estructurada de algunas de las aplicaciones más notables de la IA, organizadas por categorías funcionales:

Procesamiento del lenguaje natural (PLN)

El PLN es una subdisciplina de la IA que se centra en la interacción entre las computadoras y el lenguaje humano. A través de los años, las capacidades de los modelos de PLN han avanzado enormemente. A continuación, se describen algunas de las cosas de las que es capaz un modelo de PLN:

  • Análisis de Sentimiento. Determinar si un texto expresa un sentimiento positivo, negativo o neutro. Es ampliamente utilizado en monitoreo de redes sociales y análisis de opiniones en línea.
  • Traducción Automática. Traducir texto de un lenguaje a otro. Ejemplos famosos incluyen herramientas como Google Translate.
  • Resumen Automático. Generar resúmenes concisos de textos largos.
  • Reconocimiento de Entidades Nombradas. Identificar y clasificar entidades en un texto (como nombres de personas, organizaciones, lugares, etc.).
  • Clasificación de Texto. Clasificar textos en diferentes categorías. Por ejemplo, determinar si un email es spam o no.
  • Respuesta a Preguntas. Responder preguntas basadas en un conjunto de información o conocimiento. Los chatbots y asistentes virtuales a menudo utilizan esta capacidad.
  • Generación de Texto. Producir texto de manera coherente y relevante. Por ejemplo, modelos como GPT-3 y GPT-4 de OpenAI son capaces de generar contenido textual en una variedad de estilos y temas.
  • Extracción de Información: Extraer datos específicos de textos grandes, como extraer fechas, cifras, hechos, etc.
  • Corrección Ortográfica y Gramatical: Identificar y corregir errores en el texto.
  • Análisis de Dependencia y Sintáctico: Descomponer y entender la estructura gramatical de las oraciones.
  • Reconocimiento de Voz: Convertir el habla en texto. Esta tecnología está detrás de asistentes como Siri, Alexa y Google Assistant.
  • Síntesis de Voz: Convertir texto escrito en habla.
  • Recomendaciones de Texto. Sugerir palabras o frases mientras un usuario está escribiendo, como lo hace el teclado de un smartphone o las búsquedas en Google.
  • Desambiguación Léxica. Determinar el significado de una palabra basándose en su contexto.
  • Detección de Idioma. Identificar en qué idioma está escrito un texto.

Es importante destacar que, aunque los modelos de PLN han alcanzado altos niveles de rendimiento en muchas tareas, todavía enfrentan desafíos, especialmente cuando se trata de entender el contexto completo, el sarcasmo, o ciertas sutilezas y ambigüedades del lenguaje humano.

Visión por computadora

La visión por computadora es otra rama de la IA que se ocupa de permitir que las computadoras "vean" e interpreten imágenes y videos. Los sistemas de inteligencia artificial que utilizan visión por computadora han experimentado avances significativos en los últimos años. Estas son algunas de las posibilidades y aplicaciones de la visión por computadora con IA:

  • Reconocimiento facial. Puede identificar y verificar personas a partir de imágenes o vídeos. Esto se utiliza en aplicaciones de seguridad, desbloqueo de dispositivos móviles y etiquetado automático en redes sociales.
  • Reconocimiento de objetos. Puede identificar y clasificar objetos dentro de imágenes. Por ejemplo, en aplicaciones de comercio electrónico para identificar productos o en vehículos autónomos para identificar obstáculos.
  • Detección de defectos. En la industria manufacturera, se utilizan cámaras y sistemas de IA para detectar defectos en productos en la línea de producción.
  • Análisis médico. En el campo de la medicina, los sistemas de IA pueden ayudar a diagnosticar enfermedades al analizar imágenes médicas como radiografías, resonancias magnéticas y tomografías.
  • Navegación autónoma. Los vehículos autónomos y drones utilizan visión por computadora para navegar, detectar obstáculos y tomar decisiones en tiempo real.
  • Realidad aumentada (RA). Las aplicaciones de RA utilizan visión por computadora para superponer información digital sobre el mundo real.
  • Seguimiento de movimiento. Utilizado en deportes para seguir la trayectoria de balones o en cinematografía para efectos especiales.
  • Análisis de comportamiento. En seguridad o marketing, puede analizar patrones de movimiento de las personas y detectar comportamientos inusuales o medir la efectividad de exhibidores publicitarios.
  • Reconocimiento de texto (OCR). Convertir imágenes de texto escrito o impreso en datos textuales. Esto se usa en aplicaciones de digitalización de documentos y traducción en tiempo real de señales o menús, por ejemplo.
  • Control de calidad. En agricultura, por ejemplo, se pueden usar sistemas de visión por computadora para clasificar frutas y verduras según su calidad.
  • Reconocimiento de gestos. Permite la interacción con dispositivos mediante gestos manuales.
  • Segmentación semántica. Clasifica cada píxel de una imagen en una categoría, como "persona", "coche", "edificio", etc., permitiendo una comprensión más detallada del entorno.
  • Estimación de pose. Detecta la posición y orientación del cuerpo humano en tiempo real, útil para aplicaciones de fitness, videojuegos y más.

La combinación de hardware cada vez más potente, grandes conjuntos de datos y algoritmos avanzados de aprendizaje profundo ha permitido que la visión por computadora con IA penetre en muchos sectores y continúe expandiéndose en nuevas áreas. La investigación en este campo es activa y sigue produciendo mejoras y nuevas capacidades.

Audio

Los sistemas de inteligencia artificial que procesan y analizan audio han experimentado también avances considerables. Las aplicaciones relacionadas con el audio y la IA abarcan una amplia gama de áreas. Estas son algunas de las posibilidades y aplicaciones de la IA en este ámbito:

  • Reconocimiento de voz. Convertir el habla en texto, como lo hacen los asistentes virtuales. 
  • Síntesis de voz. Convertir texto en habla, lo que permite que las máquinas "hablen" con un tono y cadencia más natural.
  • Identificación de hablantes. Reconocer a una persona específica por su voz, lo que puede ser útil en aplicaciones de seguridad o personalización.
  • Traducción automática. Traducir en tiempo real el habla de un idioma a otro.
  • Reconocimiento de sonidos ambientales. Detectar y clasificar sonidos no verbales, como sirenas, ladridos de perros o maquinaria en funcionamiento.
  • Detección de emociones. Analizar el tono y las inflexiones de la voz para determinar el estado emocional del hablante.
  • Mejora y restauración de audio. Detectar y eliminar ruidos o sonidos que no se quiere que aparezcan y mejorar la claridad del audio en grabaciones.
  • Música. Composición automática, recomendaciones musicales personalizadas y análisis de propiedades musicales.
  • Análisis acústico. Monitorizar entornos para detectar anomalías, como en sistemas de seguridad o en análisis de salud de maquinaria.
  • Generación de música y sonido. Crear música o efectos de sonido nuevos usando redes neuronales.
  • Transcripciones automáticas. Convertir grabaciones de voz, como entrevistas, conferencias o reuniones, en texto escrito.
  • Sistemas de verificación biométrica. Usar el audio, específicamente la voz, como una forma de verificación biométrica para autenticar a los usuarios.
  • Adaptación y personalización. Ajustar la respuesta de un asistente virtual según el usuario y su contexto basándose en el análisis del audio.
  • Educación y formación. Herramientas para ayudar en la pronunciación de idiomas o para detectar errores en la lectura en voz alta.

De nuevo aquí, la convergencia de grandes conjuntos de datos de audio, algoritmos avanzados (especialmente en el área de redes neuronales recurrentes y transformadores) y hardware más potente ha impulsado la adopción de la IA en aplicaciones de audio. Como en otros campos de la IA, la investigación en audio sigue siendo muy activa y está abriendo nuevas posibilidades y mejoras continuamente.

Multimodo

Hasta aquí, es posible que te haya asaltado la idea de que estos modos podrían ser combinables para obtener una mayor funcionalidad y utilidad del sistema, eso es precisamente lo que hacen los sistemas multimodales. Los sistemas de IA multimodo son aquellos que combinan información de algunas o todas las modalidades vistas previamente (texto, imagen/video, audio) para llevar a cabo tareas o proporcionar soluciones más integradas y contextuales. Estos sistemas son especialmente poderosos porque pueden aprovechar las fortalezas y compensar las debilidades de cada modalidad individual. Aquí hay algunas posibilidades y aplicaciones de la IA multimodo:

  • Asistentes virtuales mejorados. Un asistente que puede comprender tanto el habla (audio) como las expresiones faciales (video) puede proporcionar respuestas más contextuales y emotivas.
  • Análisis de sentimientos avanzado. Al combinar el análisis de texto (por ejemplo, de transcripciones) con el análisis de tono de voz y expresiones faciales, se puede obtener una comprensión más precisa del sentimiento de una persona.
  • Educación y formación. Plataformas educativas que adaptan el contenido según las respuestas verbales y no verbales de un estudiante. Por ejemplo, si un estudiante parece confundido (expresión facial) y hace una pregunta relevante (audio), el sistema puede ofrecer información adicional.
  • Reuniones y teleconferencias. Herramientas que pueden transcribir automáticamente el habla, identificar a los participantes a través del reconocimiento facial y resaltar puntos clave basándose en énfasis vocal o gestos.
  • Publicidad y marketing. Análisis de reacciones de audiencias a contenido multimedia, combinando respuestas textuales con análisis de expresiones faciales y tono de voz.
  • Realidad aumentada y virtual. Sistemas que responden a comandos de voz, gestos y movimientos oculares simultáneamente para proporcionar una experiencia más inmersiva.
  • Sistemas de navegación en vehículos. Combina señales visuales (obtenidas mediante cámaras) con comandos de voz y datos de sensores para ofrecer instrucciones más precisas y seguras.
  • Salud y bienestar. Aplicaciones que monitorizan tanto el habla (para detectar signos de estrés o depresión, por ejemplo) como las expresiones faciales o la postura corporal para proporcionar retroalimentación y apoyo.
  • Entretenimiento interactivo. Videojuegos o experiencias interactivas que responden a múltiples señales del usuario, desde comandos de voz hasta movimientos corporales.
  • Búsqueda avanzada. Búsqueda de contenido en plataformas que no solo interpreta palabras clave, sino también contextos visuales y auditivos asociados.
  • Accesibilidad. Sistemas que ayudan a personas con discapacidades a interactuar con la tecnología, combinando, por ejemplo, interpretación de lenguaje de señas con comandos de voz.

El desarrollo de sistemas de IA multimodo es complejo, ya que requiere la integración efectiva de modelos especializados en diferentes modalidades. Sin embargo, a medida que la tecnología avanza, sin duda veremos una adopción más amplia de soluciones multimodo, dada su capacidad para proporcionar experiencias más ricas y contextuales.

 

Principales empresas de IA y sus chatBots en marzo de 2024 image.png