IA de razonamiento visual:revolucionando la transmisión en vivo con comprensión de escenas

La Inteligencia Artificial (IA) ya ha transformado la postproducción de vídeo. Ahora existen herramientas de inteligencia artificial para todo, desde subtítulos hasta efectos especiales y edición. Incluso es posible generar fotogramas adicionales para ampliar un clip que sea demasiado corto. Sin embargo, todos estos modelos de IA funcionan con vídeos que ya han sido creados. La próxima frontera es el vídeo en directo.

Visual Reasoning AI es una nueva tecnología nacida de una asociación entre PTZOptics y Moondream.ai. Aporta comprensión de la escena a las cámaras y flujos de trabajo de vídeo en directo en tiempo real. Es gratuito, de código abierto y se ejecuta en cualquier navegador web moderno.

Pero, ¿qué es exactamente y cómo funciona?

Modelo de lenguaje de visión

Los modelos de lenguajes grandes (LLM) han dominado la conversación sobre IA en los últimos años. Capacitados con datos de texto, impulsan los chatbots y asistentes virtuales que se han vuelto cada vez más familiares. Pero un LLM sólo entiende palabras.

Un modelo de lenguaje de visión (VLM) como Moondream es diferente. Un VLM puede comprender vídeo, imágenes y audio, así como entradas de texto. Esto significa que Moondream puede interpretar información visual y de audio y luego generar texto y otros resultados en respuesta a lo que está "viendo".

Moondream es un VLM de código abierto creado por M87 Labs, con sede en Seattle. Está diseñado para comprender imágenes, detectar objetos y analizar escenas. Debido a que es de código abierto, se puede instalar y ejecutar localmente sin costo alguno. El acceso basado en la nube también está disponible, aunque implica tarifas de uso.

IA de razonamiento visual

Visual Reasoning AI aporta automatización práctica a los flujos de trabajo audiovisuales profesionales, como streaming, retransmisión y producción en directo. En esencia, la tecnología genera descripciones en lenguaje natural de lo que captura una cámara en tiempo real.

Más allá de la descripción, puede localizar y resaltar cualquier objeto especificado en lenguaje sencillo, así como contar y rastrear objetos dentro del campo de visión de la cámara. Quizás lo más notable es que analiza escenas para anticipar lo que probablemente sucederá a continuación, activando respuestas automáticas como mover cámaras robóticas, enviar alertas o actualizar paneles.

El resultado es una herramienta flexible que se puede configurar en una amplia gama de escenarios de producción.

Cómo funciona

IA de razonamiento visual:revolucionando la transmisión en vivo con comprensión de escenas

Imagen cortesía:IA de razonamiento visual

Visual Reasoning es una solución basada en la nube, lo que significa que no es necesario descargar ni instalar software ni requiere hardware especial. Se ejecuta en computadoras de escritorio, portátiles, tabletas y teléfonos inteligentes a través de cualquier navegador web moderno y es compatible con cualquier cámara, incluidas cámaras web, cámaras PTZ y cámaras de teléfonos inteligentes.

Después de iniciar sesión en el sitio web de Visual Reasoning, se pueden agregar cámaras conectadas a la interfaz. Moondream VLM procesa un solo cuadro de video a la vez, por lo que para analizar video en vivo captura varios cuadros en un intervalo establecido. Estas imágenes se cargan en la plataforma Moondream.ai, donde la IA interpreta los cambios a lo largo del tiempo.

Vale la pena señalar que este enfoque cuadro por cuadro introduce una limitación natural. En un intervalo de dos segundos, el sistema se adapta bien a entornos con ritmo moderado (reuniones, presentaciones, servicios de adoración), pero puede tener dificultades para mantenerse al día con acciones rápidas como deportes de ritmo rápido. La configuración del intervalo permite a los operadores equilibrar la capacidad de respuesta con la carga de procesamiento, pero el análisis continuo en tiempo real no es lo que este sistema ofrece actualmente.

La IA puede describir una escena en lenguaje natural, identificando personas, objetos y ubicaciones. También puede rastrear y contar la cantidad de personas que aparecen en un video a lo largo del tiempo. La función de detección de múltiples objetos dibuja cuadros delimitadores alrededor de elementos específicos de la escena:un operador simplemente escribe una descripción en inglés sencillo, como "puerta", "libro" o "hombre de camisa roja", y Visual Reasoning asigna un cuadro de color alrededor del elemento. Se pueden identificar varios objetos simultáneamente, con colores de cuadro personalizables.

Razonamiento visual y producción de vídeo

El sitio web Visual Reasoning ofrece nueve herramientas gratuitas de código abierto para uso audiovisual y de transmisión profesional. Los más convincentes demuestran lo que es posible cuando la comprensión de la escena por IA se aplica al control de la cámara en vivo.

Seguimiento automático PTZ

Imagen cortesía:IA de razonamiento visual

El PTZ Auto-Tracker combina la IA de razonamiento visual con el control de la cámara PTZOptics para crear un sistema de seguimiento inteligente. En lugar de depender de la detección de movimiento o de zonas fijas, acepta descripciones en lenguaje natural de su sujeto (“el orador de la chaqueta azul” o “el jugador con la pelota”) y controla la cámara para girar, inclinar y hacer zoom en consecuencia. Para producciones sin operadores de cámara dedicados, como servicios de adoración, presentaciones de conferencias o retransmisiones deportivas a pequeña escala, aquí es donde el potencial de la tecnología se hace evidente de forma más inmediata.

Fusión Multimodal

Multimodal Fusion es quizás la más ambiciosa de las nueve herramientas. Analiza simultáneamente vídeo y audio, dando a Visual Reasoning una imagen sensorial más completa de la escena. En una configuración de presentación, esto significa que el sistema puede detectar quién está hablando y cambiar de cámara automáticamente. En una actuación de música en vivo, puede identificar el sonido de un instrumento en particular y dirigir una cámara PTZ para que siga a ese intérprete, una capacidad que normalmente requiere un director humano capacitado que tome decisiones en una fracción de segundo.

Scoreboard Extractor lee y digitaliza la información del marcador desde cualquier transmisión de video. Una cámara apuntada al marcador de un gimnasio o a la pantalla de un estadio proporciona la fuente y la IA extrae los datos relevantes. Los deportes actualmente admitidos incluyen fútbol americano, fútbol americano, baloncesto y voleibol, con la capacidad de especificar qué datos monitorear. La información extraída se puede superponer en una transmisión.

Asistente de color

La herramienta Color Assistant puede analizar las características de color de una imagen de referencia. Luego proporcionará recomendaciones para hacer coincidir la configuración de su cámara. Esto es ideal para producciones multicámara en las que se necesita un color uniforme en diferentes modelos de cámara. También puedes utilizar la herramienta Asistente de color para lograr un aspecto cinematográfico específico. El modelo de IA comprende la temperatura del color, la saturación, el contraste y las características tonales.

Monitor de zona

Zone Monitor le permite definir regiones personalizadas en su transmisión de video. Luego detecta automáticamente cuando objetos o personas específicas entran, salen o permanecen en esas zonas. Esto podría resultar útil para los cineastas sobre la vida silvestre, activando cámaras remotas para seguir a animales específicos e ignorar otras especies.

Descriptor de escena

El Descriptor de Escena genera automáticamente descripciones en lenguaje natural de lo que sucede en su video. Podría resultar útil para el análisis de contenido o como función de accesibilidad.

Cajas de detección

Los cuadros de detección identifican los objetos que eliges en tu video y dibujan cuadros delimitadores precisos alrededor de ellos.

Contador inteligente

Smart Counter utiliza IA de razonamiento visual para contar con precisión personas, vehículos o cualquier objeto que especifiques cuando entran y salen de una escena.

Analizador de escena

Con Scene Analyzer, puedes hacer preguntas sobre lo que sucede en tu video. La IA de razonamiento visual responderá con respuestas instantáneas.

El poder del razonamiento visual

El sistema Visual Reasoning está diseñado para ser modular:sus herramientas se pueden configurar y combinar para adaptarse a diferentes entornos de producción. Una demostración en el sitio web de la empresa lo ilustra con un escenario de reunión en una sala de juntas. Cuando los participantes ingresan a la sala, la IA los cuenta y los identifica. Una vez que comienza la reunión, Visual Reasoning determina quién está hablando y cambia la vista de la cámara en consecuencia. También detecta cuando aparece una señal de vídeo en un monitor y corta a esa fuente.

El sistema se extiende a entornos más dinámicos como la música en vivo. Al monitorear el audio junto con el video, puede detectar a un vocalista y dirigir una cámara para que lo siga. Durante un solo instrumental, reconoce el sonido, identifica el instrumento y el intérprete correspondiente dentro de la escena y mueve una cámara PTZ para capturarlos. Cuando termina el solo, se muestra una toma amplia del escenario completo.

Debido a que Visual Reasoning se basa en un modelo de lenguaje visual, acepta instrucciones en lenguaje natural en lugar de requerir programación tradicional. Esto significa que los operadores pueden describir lo que quieren que haga el sistema en términos sencillos y reconfigurarlo relativamente rápido para diferentes contextos, como conferencias, lugares de culto, teatro en vivo, cobertura deportiva, etc. Las instrucciones se pueden preparar antes de un evento y el sistema funcionará de forma autónoma durante la producción.

Probándolo

Hay una página Playground en el sitio web de Visual Reasoning donde puede experimentar la tecnología y probar las herramientas. Puedes usarlo con tu teléfono inteligente, computadora de escritorio, computadora portátil o tableta. Simplemente agregue su correo electrónico y Visual Reasoning le enviará un enlace para iniciar sesión. Hay un límite en la cantidad de solicitudes que puede enviar a la IA. Sin embargo, puede ir al sitio web Moondream.ai para solicitar una clave API gratuita para obtener más acceso.

Un gran paso adelante para la producción de vídeos con IA

Visual Reasoning representa un importante paso adelante para la producción y transmisión de videos con IA. Cuando se combina con cámaras PTZOptics, habilita sistemas de cámara automatizados que pueden adaptarse a escenarios de producción específicos. La tecnología es de código abierto y de uso gratuito, lo que significa que es probable que su desarrollo se acelere a medida que crezca la adopción y más usuarios contribuyan a su evolución.