4:2:0 frente a 4:2:2 frente a Raw:una guía para el camarógrafo sobre el submuestreo de croma

Las cámaras de vídeo dedicadas e incluso las cámaras híbridas ofrecen ahora una gran cantidad de formatos para grabar vídeo, pero ¿cuál es la diferencia entre 4:2:0, 4:2:2 y raw, y cómo afectará a tu metraje? Conocer los detalles técnicos puede resultar útil para tomar una decisión informada sobre qué formato utilizar.

La profusión de diferentes formatos de grabación que se ofrecen en el menú de video de su cámara a veces puede resultar abrumadora, pero si no quita nada más de este artículo, esta es la esencia del mismo:dependiendo de factores como la resolución, la profundidad de color y la velocidad de fotogramas de su metraje de video, operaciones como codificar y decodificar su video, editar su metraje o almacenarlo y recuperarlo de archivos pueden requerir una gran cantidad de datos, mucho tiempo y exigencia computacional. Los formatos de vídeo con nombres bastante crípticos mencionados en el título de este artículo son la respuesta a este problema, ofreciendo a los camarógrafos una variedad de opciones para hacer concesiones entre la calidad de sus imágenes y la cantidad de información (o datos) que se requiere para almacenarlas.

La gran compensación:calidad de imagen frente a almacenamiento de datos

En general, los formatos de vídeo de mayor calidad requerirán la mayor cantidad de datos para el almacenamiento, mientras que los formatos de menor calidad requerirán la menor cantidad. La cantidad de datos necesarios para almacenar el metraje de vídeo puede tener importantes consecuencias prácticas. Los conjuntos de datos más grandes generados por los formatos de vídeo de alta calidad crean archivos más grandes que conllevan algunas desventajas potenciales. Se requieren mayores volúmenes de medios de almacenamiento digital para almacenar el metraje, y los tiempos de escritura más prolongados para estos archivos de vídeo de alta calidad también pueden imponer límites a la capacidad de la cámara para capturar metraje. Elegir un formato de vídeo de mayor calidad podría, por ejemplo, obligarte a grabar a una velocidad de fotogramas y/o resolución más baja para permitir que el flujo de datos de la cámara se mantenga al día.

Y los problemas no terminan en la cámara.

Una vez que haya subido estos archivos más grandes a su computadora para editarlos, el tiempo y los recursos computacionales necesarios para leerlos y procesarlos serán correspondientemente mayores, y su computadora podría incluso tener dificultades para completar estas tareas si carece de la memoria o la potencia computacional necesarias para manejar el procesamiento de conjuntos de datos tan grandes.

En el lado positivo, los formatos de vídeo de mayor calidad le brindarán, bueno... imágenes de mayor calidad (obviamente), pero también pueden ofrecer un flujo de trabajo más sencillo y resultados superiores dentro de la suite de edición, algo que discutiremos más adelante.

Un ejemplo sencillo de este tipo de equilibrio entre calidad de imagen y tamaño de archivo que todo el mundo entiende es la profundidad de bits. Los píxeles del sensor de una cámara digital tendrán una profundidad de bits específica para codificar colores al grabar videos o fotografías. Un píxel con una profundidad de color de 8 bits puede registrar 2⁸ o 256 colores para cada uno de los canales rojo, verde y azul (RGB), para un total de aproximadamente 16,7 millones de colores. Por el contrario, un sensor de cámara que ofrece una profundidad de color de 12 bits puede grabar alrededor de 68,3 mil millones de colores. La reproducción del color del sensor de 12 bits obviamente será muy superior en la mayoría de las circunstancias a la del sensor de 8 bits, pero una imagen de 20 megapíxeles capturada con el sensor de 12 bits requerirá 90 megabytes para almacenar los datos de color, mientras que el sensor de 8 bits requiere 60 megabytes (suponiendo que no haya compresión de imagen en ninguno de los casos).

La siguiente imagen en color de 8 bits (cortesía de Wikipedia) ilustra muy bien el tipo de equilibrio entre calidad y tamaño de archivo que hemos estado discutiendo. En el fondo azul del cielo, se puede ver claramente un ejemplo del fenómeno de bandas que puede ser causado por el uso de una profundidad de bits menor para el color.

Bandas visibles en una imagen de 8 bits (cortesía de Steve F, Wikipedia)

Es bastante fácil entender cómo la elección de la profundidad de bits de su imagen de video puede afectar el equilibrio entre la calidad de la imagen y el tamaño del archivo, pero ¿qué pasa con estos otros formatos de video con nombres más misteriosos, como 4:2:2 y 4:2:0?

El sistema de color de 90 años que todavía utilizamos hoy

Para comprender estos formatos de vídeo, debemos dar un paso más allá del mundo del color RGB simple y observar un sistema diferente para codificar el color que surgió a finales de la década de 1930, cuando los ingenieros de televisión empezaban a pensar en la introducción de transmisiones en color. De manera análoga a la forma en que Microsoft en 1985 necesitaba que su nuevo sistema operativo Windows fuera compatible con todas las PC que ya ejecutaban su anterior sistema operativo de disco (DOS), los ingenieros de televisión reconocieron que durante el período de transición, cuando la televisión en color todavía se estaba introduciendo, las nuevas transmisiones en color también tendrían que ser compatibles con los televisores en blanco y negro que la mayoría de la gente todavía usaba. En 1938, el ingeniero francés Georges Valensi ideó un ingenioso sistema para separar los componentes en blanco y negro de la imagen de los componentes en color. Para las nuevas transmisiones en color, los televisores en blanco y negro existentes simplemente usarían el componente blanco y negro de la señal, mientras que los nuevos televisores en color reconstruirían una imagen a todo color a partir de este componente en blanco y negro en combinación con dos canales en color adicionales.

A pesar de su antigüedad, el sistema de Valensi, conocido como YCbCr, todavía se utiliza hoy en día y, de hecho, es la base de nuestros métodos modernos de codificación de vídeo (incluidos los formatos 4:2:2 y 4:2:0 que analizaremos aquí). En lugar de separar una imagen en canales rojo, verde y azul, el sistema YCbCr separa la imagen en dos componentes amplios denominados luma y croma. El componente luma (la Y en YCbCr) es esencialmente la porción en blanco y negro de la imagen, mientras que el componente croma consta de dos canales de diferencia de color:un canal de diferencia de azul (Cb) y un canal de diferencia de rojo (Cr).

El aspecto verdaderamente ingenioso de este sistema es que explota directamente la forma en que el ojo humano responde de manera diferente a la luminancia (tonos claros y oscuros) y al color, y lo hace de una manera muy inteligente que nos permite codificar imágenes de video precisas usando menos información.

Debido a que el ojo humano es más sensible a la luminancia que al color, es posible codificar información de color a una resolución más baja y aun así poder reconstruir una imagen precisa. En el caso de una señal de televisión retransmitida, esto corresponde al uso de menos ancho de banda para los componentes croma (color) que para el componente luma (luminancia). Para una imagen de vídeo digital, podemos aprovechar este mismo concepto de ahorro de espacio utilizando una fracción más pequeña de nuestros datos para codificar los componentes cromáticos de menor resolución.

Pero a medida que avanza el infomercial, espera, hay más...

Nuestros ojos también son más sensibles a la región verde central del espectro visible que a los colores más cercanos a los extremos rojo o azul del espectro, lo que significa que podemos reducir aún más la cantidad de datos que necesitamos almacenar para nuestro cuadro de video almacenando menos información de color rojo y azul que información de color verde, y esto es exactamente lo que YCbCr puede hacer.

Pero llegados a este punto, es posible que se pregunte:"¿Dónde está exactamente la información del canal verde? Tenemos el componente luma (blanco y negro) y los canales croma para las diferencias de color rojo y azul. ¿Estamos desechando el canal verde?"

La respuesta es no.

Debido a que nuestros ojos son más sensibles al verde, la información del color verde se conserva dentro del componente luminoso de mayor resolución. Cuando se necesita la información del color verde para la reconstrucción de la imagen original en RGB, se puede extraer fácilmente de los datos de luma.

Como acotación al margen, esta mayor sensibilidad del ojo humano al verde también se refleja en el diseño de los filtros de colores en la matriz Bayer (o X-Trans si estás usando Fuji) que probablemente se encuentra frente al sensor de tu cámara digital y se usa para reconstruir el color a partir de la imagen de luminancia pura que ve el sensor. Si observa el diagrama siguiente, verá que hay dos filtros verdes en la matriz de Bayer para cada filtro rojo o azul, lo que pondera más el componente verde de la imagen de acuerdo con la respuesta natural del color de nuestros ojos.

Filtro Bayer (cortesía de Amada44, Wikipedia)

Submuestreo de croma:un truco inteligente para ahorrar en almacenamiento de datos

Debido a que nuestros ojos son más sensibles a la luminancia de una imagen que a sus colores, podemos sacrificar algo de resolución en la información de color (particularmente en los canales azul y rojo) sin comprometer demasiado la precisión de nuestra imagen. Esto nos permite reducir aún más la cantidad de datos que necesitamos para almacenar la imagen, con los correspondientes beneficios a la hora de evitar algunos de los problemas con grandes conjuntos de datos que ya hemos comentado. Una forma de lograr esta reducción de datos es utilizar selectivamente parte de la información cromática de ciertos píxeles mediante un método conocido como submuestreo cromático.

Considere esta matriz de 8 píxeles de color en la imagen original.

Matriz de píxeles de color| © Gordon Webster

Podemos separar los componentes luma y croma de esta matriz de píxeles de esta manera.

Separar una imagen en componentes luma y croma | © Gordon Webster

Antes de continuar, es importante tener en cuenta que los píxeles CbCr se muestran como una combinación de un solo píxel de los canales Cb y Cr, pero en el sistema YCbCr, cada uno de ellos en realidad estaría codificado como dos píxeles Cb y Cr separados.

Notarás que hay dos filas de píxeles con cuatro píxeles en cada fila, y de aquí provienen los nombres de los formatos de submuestreo de croma 4:2:0 y 4:2:2. El primer número es el ancho del bloque de píxeles a través del cual estamos muestreando colores; en este caso, 4. El segundo número es el número de píxeles cuyos colores probaremos en la primera fila. El tercer número es el número de píxeles cuyos colores probaremos en la segunda fila.

La siguiente imagen muestra estos protocolos de submuestreo con mayor claridad y nos ayudará a comprender los detalles de cada protocolo.

Submuestreo de croma | © Gordon Webster

En el formato 4:2:0, tomamos muestras de dos píxeles en la primera fila de CbCr (píxeles 1 y 3) y ningún píxel de la segunda fila. Luego configuramos los píxeles 1 y 2 en la primera fila con el valor del píxel 1, y los píxeles 3 y 4 con el valor del píxel 3. Como no tomamos muestras de ningún píxel en la segunda fila, simplemente configuramos el valor de cada píxel en la segunda fila con el valor del píxel encima de él en la primera fila. Agregar nuevamente el canal luma nos da el resultado que vemos en la parte inferior del diagrama.

En el diagrama, puedes ver que con el submuestreo 4:2:0, estamos sacrificando la mitad de nuestra resolución cromática verticalmente y la otra mitad horizontalmente.

En el formato 4:2:2, tomamos una muestra de dos píxeles en la primera fila (píxeles 1 y 3) y los mismos dos píxeles de la segunda fila. Luego configuramos los píxeles 1 y 2 de la primera fila con el valor del píxel 1, y los píxeles 3 y 4 con el valor del píxel 3, pero esta vez, como también tomamos muestras de dos píxeles de la segunda fila, podemos realizar la operación equivalente para los píxeles de la segunda fila.

En el diagrama, puede ver que con el submuestreo 4:2:2 estamos sacrificando la mitad de nuestra resolución cromática horizontalmente pero conservando toda nuestra resolución vertical original.

Pero ¿qué pasa con el protocolo 4:4:4 de la tercera columna?

Notará que con el submuestreo 4:4:4, utilizamos todos los valores de CbCr en cada fila y, por lo tanto, no sacrificamos ninguna resolución de color. El protocolo 4:4:4 es lo que llamamos un formato de codificación de vídeo sin pérdidas y, si aún no lo habías adivinado, el submuestreo 4:4:4 se conoce más comúnmente como raw.

Volvamos a la pregunta sobre la calidad de la imagen versus el almacenamiento de datos

Primero veamos cuántos datos nos ahorra cada uno de estos protocolos de submuestreo cuando codificamos nuestro metraje de video. La buena noticia aquí es que ni siquiera necesita memorizar estos números porque existe una regla general muy sencilla para calcularlo simplemente con el nombre del protocolo. Te daré esta regla rápida en un momento, pero veamos cómo funciona.

Si codificamos los 8 píxeles usando YCbCr (4:4:4) con una profundidad de bits de 8, necesitamos 8 bits para cada píxel luma, 8 bits para cada píxel Cb y 8 bits para cada píxel Cr, para un total de 192 bits para codificar la matriz completa de 8 píxeles. Este es el requisito de almacenamiento para el formato sin formato sin pérdidas, que podemos tomar como base ya que no ahorramos espacio con este protocolo.

Para 4:2:2, solo tenemos cuatro píxeles Cb y cuatro Cr en lugar de ocho de cada uno, por lo que podemos codificar la matriz completa de 8 píxeles usando solo 128 bits, lo que supone un ahorro de un tercio.

Para 4:2:0, solo tenemos dos píxeles Cb y dos Cr en lugar de ocho de cada uno, por lo que podemos codificar la matriz completa de 8 píxeles usando solo 96 bits, lo que supone un ahorro de la mitad.

La regla general rápida y sencilla para calcular cuánto le ahorra cada formato de video es sumar los números en el nombre del protocolo y dividirlos por 12. Entonces 4:4:4 =12/12 =1, 4:2:2 =8/12 =0,67 y 4:2:0 =6/12 =0,5. ¡Fácil!

Entonces, ¿qué pasa con la calidad de la imagen?

Con todo lo que se habla sobre descartar la resolución de color, es posible que se sienta tentado a pensar que 4:2:0 es una especie de protocolo rápido y sucio para capturar secuencias de vídeo de baja calidad utilizando un mínimo de almacenamiento, pero le sorprenderá saber que 4:2:0 es en realidad el estándar para medios de vídeo digitales de alta calidad como Blu-ray. Si considera una analogía del mundo de la fotografía fija, descartamos efectivamente una gran cantidad de información cuando convertimos una imagen de su formato original sin formato a JPEG, pero aún podemos hacer impresiones del tamaño de una pared a partir de una imagen JPEG si la resolución es suficiente.

En verdad, sería difícil ver mucha diferencia, si es que hay alguna, en la mayoría de las circunstancias entre el vídeo grabado con el formato sin formato y el vídeo grabado con 4:2:0. Las diferencias definitivamente están ahí si estás decidido a observar los píxeles, pero generalmente son sutiles y aparecen principalmente en escenas donde el encuadre está dividido por bordes nítidos en los límites de diferentes colores. La siguiente imagen muestra una comparación entre los tres protocolos de submuestreo analizados aquí y, en la vista ampliada, puede ver rastros de los artefactos de submuestreo para 4:2:0 y 4:2:2.

Artefactos de submuestreo de croma, cortesía de Janke, Wikipedia

Aparte de la mayor calidad del metraje que ofrece, el vídeo sin formato (4:4:4) realmente brilla cuando se trata de edición. Volviendo a nuestra analogía con la fotografía fija, muchos fotógrafos profesionales disparan en formato raw incluso si finalmente entregan sus imágenes en un formato comprimido como JPEG, porque les brinda mucha más flexibilidad y control durante el proceso de edición. Los camarógrafos profesionales suelen seguir el mismo tipo de enfoque.

El vídeo sin procesar no está comprimido (o utiliza compresión sin pérdidas), lo que conserva el color de resolución completa para cada píxel y evita cualquier problema con artefactos de compresión en la etapa de edición. Dado que el video no está procesado, el editor de video tiene mucha más flexibilidad para manipular y ajustar el metraje; por ejemplo, establecer el balance de blancos, recuperar luces apagadas o sombras oscuras, o aplicar gradación de color. Para trabajos de croma (por ejemplo, disparar contra una pantalla verde) o cualquier tipo de composición en posproducción, el uso de vídeo sin formato es esencial para evitar artefactos como franjas de color y bordes irregulares que pueden ocurrir como resultado del submuestreo de croma.

Entonces, después de leer este artículo, espero que la próxima vez que se sumerja en el menú de video de su cámara, encuentre la variedad de opciones de formato de video un poco menos abrumadoras, además de tener una mejor idea de cuáles serán las consecuencias de elegir un formato sobre otro cuando se trata de almacenar y manejar su metraje.