Análisis básico de imágenes

Imágenes en escala de grises -> El significado de las imágenes en escala de grises

Después de comprender los principios de las imágenes, presentaremos los tipos de imágenes, ya sea que se almacenen en el disco duro en forma de archivos o se transmitan a través del red.

La consideración más importante con respecto a los formatos de archivos es el método de compresión. Introducimos clasificaciones de compresión y consideraciones de aplicación.

Píxeles de una imagen digital (1/2)

Se trata de un gráfico llamado 320 x 200, con un "ancho" de 320 píxeles y un "alto" de 200 barras de alambre.

Primero explica los píxeles. Las imágenes digitales como las de este payaso son en realidad vistas previas de un montón de partículas diminutas.

Cada pequeño color representa un color. Cuando estos diferentes colores se juntan y son vistos por nosotros, tienen un significado en sus mentes, por lo que reconocen que se trata de un payaso maquillado.

Cada pequeño color está registrado por uno, dos o tres números y se llama píxel.

Píxeles de imágenes digitales (2/2)

La llamada imagen de 320 x 200 es una imagen de 320 píxeles de ancho y 200 líneas de alto. Imagina esos píxeles dispuestos en un rectángulo, 64.000 píxeles en total.

El rectángulo de 230 x 200 píxeles es demasiado grande, por lo que lo reducimos deliberadamente a un marco de 40 x 25.

Si crees que es demasiado pequeño para verlo, puedes ampliarlo ocho veces (ocho de ancho y ocho de alto) para verlo.

Gráfico de 256 colores

La imagen del payaso reducida es una imagen de 256 colores, 40 píxeles de ancho y 25 píxeles de alto. Cada píxel está representado por un número entre 1 y 256.

Carta de 256 colores

Los píxeles de la imagen de "256 colores" no representan colores, sino números de colores. Tomemos como ejemplo esta imagen de un payaso, que sólo utiliza 81 colores diferentes.

Mapa en escala de grises (1/2)

Ahora mostraremos un mapa de payasos en escala de grises. Su ancho es 320 y su alto es 200, lo que significa que todavía hay 64.000 píxeles, pero esta es una imagen en escala de grises y cada píxel registra directamente el brillo en escala de grises en esa ubicación.

Podemos observar que el valor de píxel de esta imagen en "escala de grises" es el mismo que el valor de píxel de la imagen de "256 colores". La computadora solo interpreta el valor de píxel como "brillo", lo que conduce a. esta imagen.

Imagen en escala de grises (2/2)

No es necesario almacenar otra rueda de color en la imagen en "escala de grises". Cada píxel registra directamente el brillo en escala de grises en esa ubicación. Porque la computadora sabe que, por ejemplo, el brillo RGB del brillo 64 es (64, 64, 64). Para enumerar los valores de píxeles, solo veremos la imagen reducida del payaso en blanco y negro.

Mapa de alto color

La llamada imagen de "color alto" significa que la misma imagen no puede mostrar más de 65.536 colores diferentes. Obviamente, es poco probable que una imagen con sólo 64.000 píxeles en total, como la imagen de un payaso, utilice tantos colores diferentes. Cada píxel de una imagen de "color intenso" debe estar representado por dos números, cada uno entre 0 y 255.

…..

Mapa a todo color

La pantalla denominada "a todo color" significa que se pueden mostrar todos los colores posibles en una misma pantalla , es decir, 255x255x255** son aproximadamente 16 millones de colores. Obviamente, es imposible utilizar tantos colores diferentes (cada píxel representa solo un color) para una imagen con un total de 64.000 píxeles como la imagen del payaso.

La "cantidad de datos" de la imagen

La llamada cantidad de datos de la imagen es el espacio que ocupa una imagen digital en la memoria .

Cuanto más grandes sean los datos, más grande aparecerá la imagen en la pantalla y más ricos serán los colores, pero ocupará más memoria.

Visualmente, pensamos que las imágenes digitales tienen dos dimensiones: ancho y alto.

Ahora deberíamos aceptar un nuevo concepto: las imágenes digitales en realidad tienen tres dimensiones: además del ancho y el alto, también existe la "profundidad" o el "grosor".

El volumen de datos de las imágenes digitales es el producto de estas tres dimensiones, que es el volumen.

Profundidad de las imágenes digitales

La tercera dimensión que determina la cantidad de datos de la imagen es la riqueza del color, llamada profundidad.

De hecho, profundidad significa cuántos números representa cada píxel. El color más monótono es la imagen en "escala de grises", con una profundidad de 1.

Una imagen de "256 colores", que tiene un poco más de color que una imagen en "escala de grises", tiene una profundidad teórica de 1 porque cada píxel representa solo un número: el número de la rueda de colores.

Pero debido a la rueda de colores, decimos que su profundidad es 1,01. Este es un lugar en el que no entraré en detalles.

La profundidad de las imágenes de "color intenso" es 2 y la profundidad de las imágenes "a todo color" es 3.

Volumen de datos de imagen

El volumen de datos de una imagen digital es el volumen del cubo formado por el ancho, alto y profundidad mencionados anteriormente, y la unidad es bytes ("caracteres " o "bytes"). En terminología informática, 1024 bytes se denominan "kilobytes" y se registran como KB (kilobytes). También conocido como 1024 KB, o aproximadamente un millón de bytes en MB (megabyte).

Tome una imagen en "escala de grises" de 320 x 200 como ejemplo. El tamaño de los datos es 320 * 200 * 1 = 64000 bytes, o 62,5 KB.

Tome un mapa "a todo color" de 320 x 200 como ejemplo, su volumen de datos es 320 * 200 * 3 = 192000 bytes, o 187,5 KB.

Archivo y Compresión

En este diagrama de la relación entre imágenes, software y archivos, podemos ver que las computadoras almacenan imágenes digitales en forma de "archivos" en una unidad de disco. o transmitir imágenes digitales a través de Internet.

El sistema operativo (SO) es el responsable del almacenamiento o transmisión, como MS-Windows 98, ME, XP, etc.

El software responsable de mostrar imágenes, como MS-IE, administrador de archivos, ACDsee o PhotoImpact, es responsable de convertir el contenido del archivo en valores de píxeles. Si encuentra una imagen de "256 colores", debe ser procesado rueda de color.

Relación de compresión

Los archivos normalmente almacenan valores de píxeles comprimidos en lugar de valores de píxeles (y rueda de colores).

El proceso de compresión en realidad asigna un valor de píxel a otro valor basándose en una función matemática.

Cuando utilizamos ordenadores ya debemos saber que la naturaleza de cada archivo tiene un llamado "tamaño de archivo", que también se mide en bytes.

Las imágenes digitales normalmente se vuelven más pequeñas después de la compresión, es decir, el tamaño del archivo debe ser menor que los datos de la imagen. La relación de reducción es la relación de compresión.

Compresión sin pérdidas y compresión con pérdidas (1/2)

Compresión sin pérdidas y compresión destructiva (2/2)

Formatos de imagen (1/2) Método de compresión de

Método de compresión del formato de imagen (2/2)

Presentación de la imagen

En esta linda animación, recomendamos que el monitor "ejecute con Get" instrucciones de VRAM, en lugar de que la computadora "envíe" instrucciones de VRAM a la pantalla. De vez en cuando, el monitor va a la computadora para obtener las instrucciones en la VRAM y luego simplemente muestra diferentes colores en la pantalla. Debido a que escaneamos rápidamente, nuestros ojos sienten que la imagen está quieta debido a la continuación de la visión.

Píxeles y puntos de luz

La correspondencia entre píxeles y puntos de luz suele ser de 1 a 1, es decir, un píxel corresponde a un punto de luz. Repasemos el dibujo del payaso en miniatura. Cuando los píxeles y los puntos de luz son normalmente 1:1, en realidad son demasiado pequeños para ser vistos. Por ejemplo, si es necesario, el software puede hacer que un píxel corresponda a varios puntos de luz.

La llamada "resolución" de una pantalla significa cuántos puntos de luz hay en cada fila y cuántos puntos de luz hay en una fila. Por ejemplo, un monitor con una resolución de 800 x 600 tiene 800 puntos de luz por línea y 600 líneas por línea.

Medios de imagen

Principios de la imagen

Formas de imagen

Introducción a las imágenes digitales

Discusión sobre los tipos de imágenes JPEG de imágenes

Discusión sobre los principios JPEG de compresión y descompresión de gráficos

Discusión sobre los tipos de imágenes JPEG (1/3)

Hay muchos métodos de procesamiento de imágenes Actualmente está comprimido y básicamente se divide en "sin pérdidas" y "distorsionado". Por ejemplo, nuestros formatos PCX, GIF, TIFF, TGA y otros comunes son formatos de compresión de imágenes sin pérdida.

Utilizan principios y técnicas tradicionales de compresión de archivos para manejar la compresión de imágenes, por lo que la imagen original antes de la compresión es exactamente la misma que el resultado después de la compresión.

En cuanto al conocido JPEG (Joint Image Coding Experts Group), se trata de un formato de compresión de imágenes distorsionadas.

Discusión sobre los tipos de imágenes JPEG (2/3)

JPEG es un estándar de compresión de imágenes digitales formulado por la Organización Internacional de Normalización (ISO) y el Comité Consultivo sobre Telégrafo Internacional. y Teléfono (CCITT) Se utiliza para la compresión de imágenes fijas.

JPEC adopta el concepto de codificación de distorsión, utilizando transformada de coseno discreta para eliminar partes importantes de los datos de la imagen que tienen pérdida y solo retienen información importante, logrando así el propósito de una alta relación de compresión.

Aunque la imagen procesada por JPEC se distorsionará, la tasa de distorsión de JPEG se puede controlar mediante parámetros. En términos generales, cuando la relación de compresión (es decir, el volumen comprimido dividido por la cantidad de datos originales) está entre el 5% y el 15%, JPEC aún puede garantizar la calidad de imagen que merece, que es incomparable con los métodos normales de compresión sin pérdidas.

Discusión sobre los tipos de imágenes JPEG (3/3)

Tomaremos el paisaje de Yangmingshan como ejemplo y usaremos diferentes parámetros de compresión JPEC (PHOTOIMPACT 5.0 progresivo 1024 X 768) Realizar compresión. Los resultados de la compresión se muestran en las Figuras 2 y 3. La calidad de la imagen en la Figura 2 es muy cercana a la imagen original, con una tasa de compresión del 65%. En cuanto a la Figura 3, la relación de compresión es del 25% y el efecto de compresión es bueno, pero la calidad de la imagen obviamente está distorsionada en este momento.

Imagen original JPEG100 100%_ 671K

Compresión JPEG65 65%_ 341K

Compresión JPEG25 25% 261K

Principios JPEG (1 /3)

JPEG se basa en el principio de que el ojo humano es más sensible a los cambios de brillo de la imagen, superando con creces la percepción de los cambios de color. Entonces, lo que JPEG almacena no es una pizca de color, sino la "tasa de cambio" de brillo y color. Al restaurar la curva de tasa de cambio, se puede reproducir gran parte de la imagen, especialmente la "sensación" de la imagen.

Para la mayoría de los tipos de compresión JPEG, el primer paso es convertir RGB a luma y croma. El formato más común es CCIR601, que es el llamado formato Y, CB, Cr, donde Y representa el brillo, CB representa el croma azul y Cr representa el croma rojo (U también se puede usar para representar Cb, V representa Cr, que es el llamado formato YUV). La fórmula de conversión es la siguiente:

y = 0,299 r+0,587g+0,114B

CB = 0,1687 r–0,3313G+0,5B

Cr = 0.5R– 0.4187g–0.0813B

Esta es una conversión sin distorsión, Y, CB y Cr aún se pueden convertir completamente nuevamente a R, G y b.

Principio JPEG (2/3)

Debido a que el ojo humano es mucho más sensible al brillo que a la crominancia, al comprimir y reconstruir la imagen, podemos usar más Y y reducir Cb y Cr.

El valor convertido todavía está en formato bit a bit. Los puntos adyacentes deben fusionarse, convertirse en datos de curva de "tasa de cambio" mediante una transformación DCT (transformación de coseno discreta) y luego la curva se digitaliza (aquí es donde se produce la distorsión JPEG).

Los coeficientes utilizados en la digitalización determinan la cantidad de pérdida de datos y la calidad de la imagen. Estos datos digitalizados pueden comprimirse mediante Huffman u otros métodos de codificación y guardarse como archivos JPEG. Los pasos de recuperación son exactamente lo contrario.

Los datos JPEG primero se descomprimen en una curva digital de velocidad variable y luego la imagen se reconstruye mediante una transformación DCT inversa. Es posible que algunos de los bits originales de bajo orden no se reproduzcan, por lo que se rellenan con ceros.

Principios de JPEG (3/3)

Debido a la diferente importancia de Y, CB y Cr, JPEG permite darle diferentes pesos a cada uno de ellos. Por ejemplo, para una matriz de puntos de 2x2 (**4 puntos), sería mejor tener 4 valores de Y (**4 puntos), pero CB y Cr solo registran uno (promedio), por lo que se necesitan 4x3 = 6544 en modo RGB.

En cuanto a DCT, en realidad es un poco como la transformada de Fourier, que convierte la matriz de datos de intensidad de amplitud en la matriz de datos de frecuencia de cambio de intensidad.

JPEG utiliza digitalización lineal, es decir, cada valor de conversión DCT se divide por un coeficiente de digitalización diferente y luego 45 se almacena en un número entero. Durante este proceso, cada elemento de la matriz de tasa de cambio se divide por un coeficiente diferente según su frecuencia.

Para el ojo humano, los cambios lentos son más fáciles de notar que los cambios rápidos. Este proceso reducirá significativamente la longitud de los datos. Por tanto, los elementos con mayores tasas de cambio tienen mayores relaciones de compresión. Ésta es la ventaja de JPEG para imágenes irregulares (como imágenes de televisión y fotografías).

Medios de imagen

Principios de la imagen

Formas de imagen

Introducción a las imágenes digitales

Discusión sobre los tipos de imágenes JPEG de imágenes

Discusión sobre los principios JPEG de compresión y descompresión de gráficos

Discusión sobre los principios JPEG de compresión y descompresión de gráficos

JPEG es un método para comprimir y descomprimir gráficos de tonos continuos (como color o grado de gris).

Este estándar está especificado por ISO/IEC JTC 1/sc 29 WG 10. JPEG se puede aplicar a la compresión de muchas imágenes estáticas, como fotografías de seminarios, télex en color, bases de datos de imágenes, sistemas de autoedición, multimedia y médicos.

El concepto básico de JPEG es convertir los bloques de una imagen del dominio espacial al dominio de frecuencia. En términos generales, la cantidad de partes de alta frecuencia de una imagen es mucho menor que la cantidad de partes de baja frecuencia.

Debido a que el ojo humano no es muy sensible a la parte de alta frecuencia del espacio, la parte de alta frecuencia se puede representar mediante una imagen aproximada mediante mucho procesamiento. Debido a que las imágenes aproximadas requieren menos bits, la cantidad de información que se almacenará o transmitirá se puede reducir considerablemente y, de hecho, los sentidos visuales humanos pueden aceptar la imagen de información reducida.

Principio de compresión de imágenes

Los métodos de compresión de datos se pueden dividir en compresión sin pérdidas y compresión sin pérdidas.

Se debe utilizar la compresión sin pérdidas cuando los datos en sí deben conservarse después de la compresión y luego restaurarse. La compresión sin pérdidas tiene la limitación de no haber distorsión, por lo que el efecto de compresión es limitado. Funciona para tipos de datos como números y programas.

Una característica de los datos de imágenes es la redundancia espacial.

En términos generales, debe haber alguna * * * correlación en la misma imagen, que puede ser el color, la geometría u otros valores de características.

La llamada eliminación de redundancia espacial consiste en identificar elementos importantes en la imagen y eliminar elementos duplicados con menor impacto.

Descripción general de los métodos de compresión de imágenes (1/2)

Primero, se presenta un método de compresión básico llamado RLE.

El principio es registrar los detalles del contenido y el número de apariciones de contenido repetido en los datos. Por ejemplo, ABCDEABCDEABCDEABODE, podemos registrar cuatro apariciones de ABCDE. ¿Es más conciso que registrar directamente ABCDE repetido?

El algoritmo de codificación de longitud variable es bastante simple y puede usarse directamente o junto con otros métodos de compresión.

Sin embargo, es posible que el método de codificación de longitud variable no logre el efecto de compresión. A veces, cuando se encuentran datos con poca repetición, el tamaño comprimido no disminuye sino que aumenta.

Descripción general de los métodos de compresión de imágenes (2/2)

Para comprender la correlación entre los píxeles de la imagen y así decidir qué datos utilizar para eliminar transformaciones matemáticas.

Actualmente, la transformación matemática más utilizada en la compresión de imágenes es la transformada discreta del coseno (DCT).

Utilice DCT para analizar las partes menos importantes de los datos de la imagen y luego utilice métodos cuantitativos para eliminarlas, conservando solo la información importante para lograr un efecto de alta compresión.

La tasa de distorsión se puede controlar mediante parámetros de cuantificación. Este método aún puede garantizar una calidad de imagen adecuada cuando la relación de compresión está entre el 5% y el 15%. El desarrollo de este método de compresión hace que el almacenamiento y la aplicación de medios de imágenes sean más convenientes.

Compresión JPEG de diferentes calidades

Original

QF=20

QF=50

QF=30

QF=80

QF=10

Comparación de imagen original e imagen comprimida

Comparación de imagen original e imagen comprimida (continuación) ) )

Comparación de imagen original e imagen comprimida (continuación)

Comparación de imagen original e imagen comprimida (continuación)

Comparación de imagen original e imagen comprimida (continuación)

Comparación de imágenes originales y comprimidas (continuación)

Vista subjetiva de Titanic

Codificación JPEG de referencia

Resta de conversión

128 píxeles para

bloque de 8×8

Transformación de coseno discreta; túbulo distal; transmisión automática de doble embrague

Cambiar

Conversión de números

Zigzag/

RLC

Entropía

Codificación

DPCM

Codificación

Coeficiente DC

Rango AC: -1023 ~ 1023

Rango DC: 0 ~ 2048

Codificador y decodificador JPEG

8X8

Pixel

Bloque

FDCT

Datos codificados stream

Grupo conjunto de expertos en fotografía

Sintaxis

Generador

Compresión sin distorsión

Codificación Huffman

Compresión de distorsión

Procesamiento de cuantización

Inclinación

Escaneo

Tabla de cuantización

Huffman

Tabla de codificación

FDCT: transformada discreta directa (transformación de coseno discreta positiva)

8X8

Píxeles

Bloques

IDCT

Flujo de datos codificados

Grupo conjunto de expertos en imágenes

Sintaxis

p>

Generador

Compresión sin distorsión

Codificación Huffman

Cuantización inversa

Inclinación

Escaneo

Tabla de cuantización

Huffman

Tabla de codificación

IDCT: Transformada discreta inversa (Transformación de coseno discreta inversa)

Modo de codificación JPEG

En Para cumplir con la aplicación de diferentes escenarios de comunicación y almacenamiento, JPEG proporciona dos o cuatro métodos de codificación diferentes:

1.

2. Modo progresivo

3. Modo jerárquico

4. Modo sin pérdidas

1, modo secuencial.

La codificación en modo secuencial codifica la imagen de izquierda a derecha y de arriba a abajo. Esta arquitectura de codificación en modo secuencial es simple y eficiente, lo que la hace ideal para la mayoría de las aplicaciones. Esta arquitectura procesa los datos solo una vez, lo que se denomina modo de codificación secuencial. Este método proporciona una resolución de 8 bits para cada dato de entrada.

Ejemplos de codificación secuencial

Ejemplos de codificación secuencial

2. Modo progresivo (Modo progresivo)

Si es de baja frecuencia borrosa. imágenes Ya sea una imagen clara de alta frecuencia (es decir, método de selección de espectro) o la creación de una imagen desde el bit más significativo al bit menos significativo (es decir, método de aproximación continua), la codificación en modo progresivo procesa la imagen a través de múltiples escaneos. Tomando el método de selección de espectro como ejemplo, la imagen se transforma al dominio de la frecuencia a través de DCT y se puede obtener algo de ancho de banda inmediatamente a partir de los coeficientes DCT. Debido a que la DCT se realiza solo una vez, de esta manera solo hay una resolución espacial. El modo progresivo es útil para la transmisión de imágenes en canales con ancho de banda limitado. Los usuarios pueden ver primero una imagen preliminar y luego decidir si quieren la imagen final.

La presentación de la imagen después de la descompresión en modo progresivo es que primero aparece una imagen borrosa de baja frecuencia y luego aparece una imagen clara de alta frecuencia.

Este método de codificación cumple con los requisitos de visualización progresiva, codificación aritmética y alta resolución (como 12 bits) para muchas aplicaciones. El método de codificación aritmética proporciona una compresión entre un 5% y un 10% mejor que el método de codificación Huffman.

Además, este modo también admite codificación secuencial y resolución de 8 bits.

Ejemplo de codificación progresiva

Ejemplo de codificación progresiva

3. Modo jerárquico (modo jerárquico)

El método de codificación del modo jerárquico es Primero se codifica la imagen de baja resolución espacial y luego se codifica la diferencia entre la imagen de alta resolución y la imagen de baja resolución en función de esta imagen de baja resolución para obtener una imagen codificada de mayor resolución.

La misma imagen se puede codificar con varias resoluciones diferentes en modo jerárquico. El modo jerárquico puede satisfacer simultáneamente varios dispositivos con diferentes capacidades, de modo que incluso los dispositivos de bajo costo pueden codificar imágenes con resoluciones tan múltiples. la mejor calidad que puedan.

Por el contrario, el modo progresivo solo puede utilizar una única resolución para la reconstrucción y visualización de imágenes, mientras que el modo en capas proporciona mejor intensidad y resolución para una variedad de dispositivos.

Ejemplo de codificación jerárquica

4. Modo sin pérdida (Modo sin pérdida)

El llamado modo sin distorsión significa que este modo puede restaurar y reconstruir la imagen. .

Para obtener exactamente la misma imagen durante la reconstrucción, DCT no se utiliza en modo sin pérdidas, por lo que la tasa de compresión del modo sin pérdidas es mucho menor que la de DCT.

Este modo generalmente solo se usa en algunas situaciones donde se requiere deformación de la imagen, como imágenes médicas importantes. El rango de valores de cada píxel puede ser de dos a dieciséis bits.

Además, este modo de procesamiento también admite codificación secuencial y los usuarios pueden elegir la codificación Huffman o la codificación aritmética para el procesamiento.

Codificación sin pérdidas

Prophet

Codificador de entropía

Huffman (nombre)

Tabla

Imagen fuente

Datos comprimidos

Codificador sin pérdidas

Luminancia y croma (1/2)

Aunque JPEG no planea una espacio de color, la mayoría de las aplicaciones JPEG no utilizan representación RGB, sino representación YCbCr. Además, el sistema visual humano no es muy sensible al croma.

Por lo tanto, la cromaticidad de YCbCr significa que podemos submuestrear nuevamente para reducir la cantidad de información, que es otra razón importante por la que YCbCr se usa ampliamente, como se muestra en la siguiente figura.

El formato 4:4:4 representa la información completa original de YCbCr, mientras que la representación cromática se puede representar en el formato 4:2:2 o 4:2:0 mediante remuestreo. El formato 4:2:2 reduce la información original a dos tercios.

Sin embargo, el formato 4:2:0 puede reducir la información de 3 a la mitad. Aunque la cantidad de información cromática se reduce, el nervio visual humano sólo percibe diferencias sutiles.

Luminancia y croma (2/2)

Transformada de coseno discreta

Para ilustrar el impacto de la Transformada de coseno discreta (DCT), comenzaremos con una image Tome los datos de brillo de un bloque unitario (8 × 8 píxeles) y conviértalos al dominio de frecuencia espacial, y luego reste 128 de cada valor de píxel para que cada píxel pueda cumplir con el rango de operación de 8 bits en el algoritmo DCT. Los coeficientes bidimensionales (2D) convertidos son los siguientes, y el eje horizontal de este dominio de frecuencia 2D está representado por. La esquina superior izquierda representa el valor del coeficiente de DC -80. La parte de baja frecuencia contiene la mayor parte de la energía del bloque, mientras que la parte de alta frecuencia, a la que el ojo humano es menos sensible, generalmente contiene menor energía.

-2

-4

Ocho

-2

-2

Seis

12

-2

-4

Seis

Ocho

-2

-2

Cuatro

10

-6

-2

Ocho

-2

Cuatro

Cuatro

-4

-12

-4

10

2

12

Ocho

-8

24

-2

-2

2

Seis

-6

Cuatro

-80

Cuantización (1/2)

A continuación se enumeran las matrices de cuantización recomendadas para JPEG para lograr 720X576 por segundos 30 fotogramas de píxeles para procesar y mostrar imágenes estándar CCIR-601.

Esta matriz tiene como objetivo cuantificar el brillo, y existe otra matriz que maneja los coeficientes de croma.

99

103

100

112

98

95 p>

92

Setenta y dos

101

120

121

103

87

Setenta y ocho

64

Cuarenta y nueve

92

113

104

81

64

55

35

24

77

103

109

Sesenta y ocho

Cincuenta y seis años

37

22

18

62

80

87

51

29

22

17

14

Cincuenta y seis años

Sesenta y nueve

57

40

24

16

13

14

55

60

58

26

19

14

12

12

61

51

40

24

p>

16

10

11

16

Cuantificación (2/2)

En la cuantificación de coeficientes de luminancia, cada coeficiente DCT 2D se divide por el valor de la matriz de cuantificación relativa y, después del redondeo, los coeficientes DCT cuantificados se obtienen de la siguiente manera:

1

1

-1

1

1

1

-1

2

-5

Por ejemplo, el coeficiente DC -80 se divide por su valor correspondiente 16 para obtener el valor cuantificado -5. Tenga en cuenta que hay muchos valores cero en la parte de alta frecuencia del bloque cuantificado, lo que indica que el sistema visual humano no es sensible a las partes de alta frecuencia. Dado que la parte redondeada no se puede reproducir durante la decodificación, este paso será un proceso de distorsión.

Escaneo oblicuo (1/2)

Después de la cuantificación, solo la parte de baja frecuencia del bloque tiene valores distintos de cero para reducir aún más el tamaño del espacio de almacenamiento y la comunicación. capacidad.

Agrupa los valores cero siempre que sea posible para que cada cero pueda representarse mediante varios ceros en lugar de tratarse individualmente.

Por lo tanto, se realiza un escaneo diagonal como se muestra en la figura siguiente, y las líneas de escaneo de este escaneo diagonal se escanean en la dirección de frecuencia espacial creciente.

De esta manera, se pueden conectar muchos ceros entre sí para lograr la expectativa original.

Escaneo de inclinación (2/2)

En el caso del escaneo de inclinación de coeficientes cuantificados, el escaneo de inclinación solo procesa coeficientes AC.

Es decir, se omite la parte del coeficiente DC en la esquina superior izquierda y se escanea la parte del coeficiente DC con sus bloques adyacentes de la siguiente manera.

Longitud del flujo de palabras y método de codificación Huffman

Una vez completado el escaneo, el siguiente paso es mezclar la longitud del flujo con el método de codificación Huffman para optimizar la cantidad de bits. Primero, el coeficiente AC de la secuencia se obtiene mediante el procesamiento de escaneo oblicuo y se obtiene la siguiente secuencia como se indicó anteriormente: 0, 2, 1, -1, 0, 65438. 1, 0, 0, 1, 0, 0,- 1, 0, -1, ..0, luego la codificación de longitud de flujo o de longitud variable codifica esta secuencia para reducir aún más la cantidad de bits requeridos y el valor de codificación.

(Número de valores cero en el flujo de palabras, número de siguientes valores distintos de cero)

Entonces, el ejemplo anterior se puede codificar como: (1, 2), ( 0, 1), (0,-1), (2,1), (1). Luego se utiliza la codificación de Huffman para reducir la cantidad de bits codificados para representar la longitud del flujo de palabras.

La codificación de Huffman se deriva de la estadística, por lo que los códigos más utilizados están representados por el menor número de bits. JPEG proporciona una tabla para manejar luma y croma de la codificación Huffman DC y AC. Además, al codificar en modo por capas o en modo sin pérdidas, se puede utilizar la tabla de codificación aritmética en lugar de la tabla de codificación de Huffman.