Los modelos de lenguaje grande (LLM) como ChatGPT, Gemini, Claude, Perplexity y Grok interpretan principalmente el contenido de video a través de señales textuales. Ellos pueden:
- Extrae información de las transcripciones de vídeos.
- Proporcione enlaces a vídeos que se consideren relevantes para la consulta de un usuario.
- Analizar la transcripción y los metadatos de un vídeo cuando se le solicite explícitamente.
En la práctica, los LLM procesan el lenguaje escrito; todavía no pueden analizar imágenes en movimiento y transmisiones de audio directamente. Esta limitación se debe en gran medida al gran volumen de datos involucrados. Por ejemplo, 100 palabras de HTML simple pesan aproximadamente 0,8 KB, mientras que el mismo contenido renderizado como un vídeo HD de 45 segundos ocupa alrededor de 20 MB, aproximadamente 25.000 veces más datos. En consecuencia, actualmente sólo los rastreadores especializados pueden analizar archivos de vídeo bajo demanda, y los rastreadores de uso general todavía carecen de la capacidad para hacerlo con cada vídeo encontrado.
Debido a esto, la optimización de video para LLM debe centrarse en los metadatos textuales circundantes. Los elementos clave son:
Transcripciones, títulos y descripciones
Cada vídeo debe tener una transcripción completa, un título claro y una descripción detallada que explique su contenido. Estos elementos deben exponerse directamente en el código fuente de la página (libre de envoltorios de JavaScript o iframes) para que los rastreadores de LLM puedan leerlos. Desafortunadamente, más del 95 % de los vídeos web dependen de JavaScript o la entrega de iframe, lo que oculta sus metadatos de muchos sistemas de inteligencia artificial.
Las inserciones compatibles con LLM de Wistia abordan este problema incorporando la transcripción como texto HTML sin formato dentro del código de inserción y luego usando JavaScript para reemplazar ese texto con el reproductor de video. Este enfoque garantiza que los rastreadores y los usuarios que no pueden reproducir el vídeo sigan recibiendo el texto alternativo.
Para los sitios que insertan vídeos de YouTube, se aplica el mismo principio. Las incrustaciones de iframe de YouTube son invisibles para los rastreadores de LLM, por lo que la única forma confiable para que una IA comprenda el video es incluir la transcripción como texto visible en la página. Es esencial cargar transcripciones precisas y multilingües en YouTube, aunque estas transcripciones no se incorporarán al conjunto de capacitación general del LLM debido a que los términos de servicio de YouTube prohíben el scraping masivo.
¿Qué pasa con la relación de Gemini con YouTube?
Es un error común pensar que la propiedad de Google tanto de Gemini como de YouTube garantiza una integración perfecta. Si bien Gemini puede acceder a una base de datos de videos de YouTube con metadatos adicionales, su funcionamiento sigue siendo similar al de otros LLM:se basa en citas y referencias web para identificar videos relevantes. La clasificación de los vídeos en los resultados de búsqueda no se traduce automáticamente en los vídeos destacados por Gemini.
Perspectivas futuras:¿Los LLM procesarán directamente archivos de vídeo?
Los expertos anticipan que, en los próximos años, los LLM adquirirán el poder computacional para interpretar el contenido de video de manera más parecida a los humanos. Sin embargo, que esta capacidad se generalice depende del valor incremental que aporta frente al costo de procesamiento. Las proyecciones actuales sugieren que, para 2028, los LLM podrán analizar JavaScript de una manera comparable al robot de Google, y para 2031, podrán procesar de forma rutinaria archivos de vídeo encapsulados. Hasta entonces, la regla sigue siendo simple:si el contenido no es legible como texto, permanece invisible para la IA.