Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Codificación y difusión de información multimedia (página 2)




Enviado por Pablo Turmero



Partes: 1, 2

Monografias.com

Codificación Diferencial
Se basa en la codificación de las diferencias entre dos símbolos consecutivos.
Ciertos tipos de datos tienen la propiedad de similitud entre símbolos consecutivos:
Señal de Audio, vídeo, imágenes, etc.
Esto permite codificar con pocos bits las diferencias.

Ejemplo:
DPCM (Differential Pulse Code Modulation)
Codificación con pérdida.
13

Monografias.com

Transform encoding
Se basa en transformar el dominio (Ej.: del temporal al de la frecuencia) de los datos de entrada (Ej.: señal de audio).
Ejemplos:
Aritmética:

Fourier:

DCT (Discrete Cosine Transformation):
Muy común en compresión de imágenes estáticas (JPEG).

Codificación sin pérdida*.
14
(Gp:) t
(Gp:) F(t)
(Gp:) C
(Gp:) f

(Gp:) 160
(Gp:) 160
(Gp:) 161
(Gp:) 160
(Gp:) 161
(Gp:) 165
(Gp:) 166
(Gp:) 158
(Gp:) 160
(Gp:) 167
(Gp:) 165
(Gp:) 161
(Gp:) 159
(Gp:) 160
(Gp:) 160
(Gp:) 160
(Gp:) 160
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 1
(Gp:) 5
(Gp:) 6
(Gp:) -2
(Gp:) 0
(Gp:) 7
(Gp:) 5
(Gp:) 1
(Gp:) -1
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) Imágen BW
4×4 pixels
(Gp:) Restar a todos los
pixels el valor del
primero

Monografias.com

Vector quantization
Es directamente aplicable a imágenes y audio.
Consiste en lo siguiente (imágenes):
La imagen se divide en bloques de tamaño fijo (vectores).
Se construye una tabla, code-book, con todos los vectores diferentes encontrados.
Se codifica la imagen como una sucesión de índices a la tabla.
Tanto el codificador como el decodificador necesitan conocer la tabla (code-book).
La tabla puede estar predefinida o ser creada dinámicamente.
Si en una imagen predomina un número reducido de vectores, el índice de compresión puede ser importante.
15

Monografias.com

Vector quantization (II)
Ejemplo:
16
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 2
(Gp:) 2
(Gp:) 2
(Gp:) 0
(Gp:) 3
(Gp:) 2
(Gp:) 2
(Gp:) 0
(Gp:) 0
(Gp:) 4
(Gp:) 0
(Gp:) 0
(Gp:) Imagen original dividida
en vectores de nxn pixels

(Gp:) 0
(Gp:) 1
(Gp:) 2
(Gp:) 3
(Gp:) 4
(Gp:) Code-book

(Gp:) 001022032200400

Si un vector no se encuentra en el code-book:
Buscaremos el que más se parezca.
Idem + enviar algún dato para aumentar el parecido (valor medio).
Idem + enviar lo que sea necesario (vector error) para reconstruir el vector.
Codificación con pérdida*.

Monografias.com

Vector quantization (III)
CLUT (Color Look-Up Table)
Es utilizado para codificar imágenes RGB, que normalmente no utilizan todos los colores posibles.
Se utiliza una tabla (code-book) con los colores usados en la imagen. Cada pixel es representado con el índice de la tabla correspondiente a su color.
Ejemplo:
Imagen RGB de 24bits de color que solo usa 256.
Se construye una tabla de 256 entradas y en cada una de ellas se guarda un color (24 bits).
En lugar de usar 24bits/pixel, ahora usaremos 8bits/pixel
Tasa de compresión: ~66%
Codificación más lenta que decodificación.
17

Monografias.com

Introducción a la codificación y compresión de audio.
Las secuencias de audio forman parte de las aplicaciones multimedia.
El estudio de la codificación y compresión se puede enfocar en función de la aplicación:
Aplicaciones interactivas (audio-conferencia audio) ? codecs simétricos.
Aplicaciones de difusión y reproducción de medios (TV digital, audio Hi-Fi, DVD, etc.) ? codecs asimétricos
Características de una señal de audio.
Distintos tipos de calidad de audio.
Técnicas de compresión de audio.
18

Monografias.com

Características del audio
Una señal de audio no es más que una onda acústica (variaciones de presión del aire)
La señal de audio es unidimensional (tiempo)
El micrófono transforma las ondas acústicas que lo golpean, en señales eléctricas (niveles de voltaje)
El oído es muy sensible a las variaciones de sonido de corta duración (ms) al contrarío que el ojo humano.
La relación de dos sonidos A y B se mide en decibelios:
dB=20 log10 (A/B).
La intensidad de un sonido A se mide en decibelios tomando como referencia el menor sonido audible.
0 dB: Menor sonido audible
La señal de referencia (B) es una onda senoidal a 1khz que provoca una presión de 0.0003 dinas/cm2
A y B son amplitudes (si fueran potencias sería 10 log10 (A/B))
50 dB: Conversación normal.
120dB: Umbral del dolor.
19

Monografias.com

Características del audio
El rango de frecuencias audibles por los humanos está entre 20Hz y 20KHz.
20
(Gp:) Audible
(Gp:) No audible

Monografias.com

Digitalización y cuantificación.
21
La digitalización de las señales de audio se realizan mediante convertidores A/D.
Muestrean la señal analógica de audio a una frecuencia determinada.
Según Nyquist: “Si la señal de entrada tiene una frecuencia máxima de f, la frecuencia de muestreo tiene que ser de al menos 2f “(al muestrear a Sf captaremos hasta la frec. Sf/2)
En el conversor D/A, un filtro paso bajo puede interpolar la parte de señal entre las muestras, para poder reconstruir perfectamente la señal original.

Monografias.com

Digitalización y cuantificación.
22
Cuantificación: Las muestras obtenidas se codifican en un número finito de bits
Error de cuantificación (quantification noise).
Codificación lineal o logarítmica.

PCM (Pulse Code Modulation).
Usado para la digitalización de señales de audio.
Parámetros: Sf, bits/muestra, niveles de cuantificación*

Monografias.com

Digitalización y cuantificación.
23
Cuantificación PCM lineal
Los niveles de cuantificación están espaciados de manera equitativa.
Cada bit de resolución añade 6 dB de rango dinámico.
Con 16 bits por muestra se cubre totalmente el rango dinámico del oído humano.

Cuantificaciones no-lineales (logarítmica)
Los pasos de cuantificación decrecen logarítmicamente.
El oído humano es menos sensible a sonidos fuertes.

Monografias.com

Digitalización: Interfaz MIDI
MIDI (Musical Instrument Digital Interface).

Utilizado para codificar música (instrumentos).
Codifica los elementos básicos (notas, silencios, ritmos, etc.) en mensajes MIDI.
Cada instrumento tiene su propio código (hasta 127)
Un sintetizador interpreta los mensajes MIDI y produce la señal de audio correspondiente.
Ventaja:
Reduce mucho el ancho de banda necesario (factor de 1000 !!)
Inconvenientes:
Necesidad de un sintetizador en ambos extremos (calidad de sonido diferente).
Aplicable solo a música.
24

Monografias.com

Calidad de una señal de audio.
Voz (telefonía)
Se define para los servicios de telefonía digital.
Estándar G.711 (ITU): Codificación logarítmica.
Japón y USA: Transformación µ-law.
Resto: Transformación A-law. (+)
Parámetros:
Señal de audio de 3.5 KHz (BW).
Sf = 8 KHz
8 bits/muestra.
Tasa de bits: 64Kbps (N-ISDN).
Otras técnicas de codificación y compresión:
DPCM y ADPCM,
G.72x,
GSM,
LPC y CELP,
etc.
25

Monografias.com

Calidad de una señal de audio.
CD-Digital Audio.
Calidad de audio superior: Sonido Hi-Fi estereofónico.
Utiliza una codificación lineal. Las diferencias de amplitud deben ser respetadas por igual.
Parámetros:
Señal de audio de 20 KHz (BW).
Sf = 41.1 KHz
16 bits/muestra.
Soporta estereofonía (dos canales)
Tasa de bits: 1.411 Mbps.
Otros estándares utilizan esta calidad de audio:
DAT (32.4 y 48 KHz),
MPEG (32, 44,1 y 48 KHz),
DVI,
etc.
26

Monografias.com

Parámetros específicos.
Tasa de bits (throughput):
Audio sin comprimir:
Calidad telefónica: 64Kbps.
Calidad CD: 1.411 Mbps.
Audio comprimido:
Calidad telefónica: 32, 16, 4 Kbps (ADPCM, CELP)
Calidad CD: 192 Kbps. (MPEG audio)

Retardo de tránsito (aplicaciones interactivas)
Conversación:
Telefonía: < 25 ms (evitar echo).
100 a 500 ms (sensación de tiempo real).
27

Monografias.com

Parámetros específicos.
Varianza del retardo (jitter).
Es el parámetro más crítico para los streams de audio.
Solución:
Técnicas de ecualización del retardo.
Se suministra un tiempo adicional antes de comenzar la reproducción, almacenando los paquetes en un buffer de entrada.
Consecuencias:
Incrementamos el retardo total.
Necesitamos recursos de memoria para el buffer de ecualización.
Compromiso entre la capacidad de almacenamiento y el máximo jitter tolerable por la aplicación.

Tasas de error:
Calidad telefónica: < 10-2, Calidad CD: < 10-3
28

Monografias.com

Algoritmos de compresión (Voz)
Codificación diferencial:
DPCM (Differential Pulse Code Modulation).
Explota la redundancia temporal entre las muestras.
Se transmite la diferencia
entre muestras (bastante
menor).

Problema: Sobrecarga de gradiente (slope overload)
Las diferencias en altas
frec.(cercanas a Nyquist) no
se pueden representar con
el mismo número de bits.
29

Monografias.com

Algoritmos de compresión (Voz)
30
Codificación diferencial adaptativa:
ADPCM (Adaptive Differential Pulse Code Modulation). Predice la muestra y cuantiza adaptativamente.
Predicción: Codifica la diferencia entre la muestra actual y una estimación basada en las últimas “n” muestras
(Gp:) Dequantizer
(adaptive)
(Gp:) +
(Gp:) Predictor
module
(Gp:) Xp[n-1]
(Gp:) C[n]
(Gp:) Xp[n]
(Gp:) Dq[n]
(Gp:) Decodificador

(Gp:) Quantizer
(adaptive)
(Gp:) Dequantizer
(adaptive)
(Gp:) –
(Gp:) +
(Gp:) Predictor
module
(Gp:) X[n]
(Gp:) Xp[n-1]
(Gp:) C[n]
(Gp:) Dq[n]
(Gp:) D[n]
(Gp:) Xp[n]
(Gp:) Codificador

Monografias.com

Algoritmos de compresión (Voz)
31
Codificación diferencial adaptativa:
ADPCM (Adaptive Differential Pulse Code Modulation). Predice la muestra y cuantiza adaptativamente.
Cuantización adaptativa: Usa pasos más largos para codificar diferencias entre muestras muy distintas en magnitud (de alta frecuencia) y pasos más pequeños para muestras que son similares (bajas frecuencias).

Monografias.com

Una implementación de ADPCM
Algoritmo ADPCM (IMA: Interactive Multimedia Association)
Algoritmo de dominio público. Calidad de audio e índice de compresión aceptables.
Sencillo y capaz de trabajar en tiempo real (software).
Indice de compresión: (PCMbits/4) a 1.
32
(Gp:) Dequantizer
(adaptive)
(Gp:) +
(Gp:) Delay
(Gp:) Xp[n-1]
(Gp:) C[n]
(Gp:) Xp[n]
(Gp:) Dq[n]
(Gp:) Decodificador

(Gp:) Quantizer
(adaptive)
(Gp:) Dequantizer
(adaptive)
(Gp:) –
(Gp:) +
(Gp:) Delay
(Gp:) X[n]
(Gp:) Xp[n-1]
(Gp:) C[n]
(Gp:) Dq[n]
(Gp:) D[n]
(Gp:) Xp[n]
(Gp:) Codificador
(Gp:) Predictor
module

Monografias.com

Calidad telefónica: Recomendaciones ITU
G.701: Digitalización PCM
G.711: Codificación logarítmica µ-law y A-law
G.721: ADPCM
Muestreo a 8 Khz, muestras de 8 bits: 64 Kbps
Utiliza diferencias de 4 bits: tasa de bits final 32 Kbps
G.722: Sub-Band ADPCM.
Muestreo a 16 Khz, muestras de 14 bits: 224 Kbps
Codifica señales de audio de hasta 7 KHz (por el muestreo)
Descompone la señal en dos bandas de 4 KHz.
A cada banda le aplica ADPCM.
Tasas de bits finales: 48, 56 y 64 Kbps.
G.723, G.726, G.727:
Variantes del G.721 (ADPCM).
33

Monografias.com

Calidad telefónica: Vo-coding
LPC (Linear Predictive Coding) US-FS-1015
Define un modelo analítico del aparato fonador
Reduce cada segmento de audio a los parámetros del modelo que más se aproximan al original.
El decodificador recoge estos parámetros y sintetiza la voz correspondiente.
LPC-10E puede bajar hasta 2.4 Kbps.
CELP (Code Excited Linear Prediction) US-FS-1016.
Es una versión mejorada del LPC.
Diferencia:
Utiliza un code-book con secuencias predefinidas para aplicarlas a cada frame de audio, eligiendo aquella que más se aproxima al original. Además, calcula los errores cometidos.
Se envían los parámetros y la versión comprimida de los errores.
Tasa de bits de hasta 4.8 Kbps (calidad similar a ADPCM G.721 a 32 Kbps)
Variantes CELP:
GSM, VSELP, LD-CELP, ITU G.729, QCELP, MELT, etc.
34

Monografias.com

Calidad telefónica
Tabla resumen de algunos codecs de audio.
35

Monografias.com

Calidad CD

Estándares MPEG/audio (Estándar ISO)
MPEG (Moving Pictures Expert Group)
MPEG/audio ofrece altos índices de compresión, manteniendo la calidad del audio del stream original.
Son algoritmos de compresión con pérdidas*.
MPEG-1 /audio
Muestreos: 32, 44.1 y 48 KHz.
Soportan uno o dos canales (diferentes modos de operación).
Tasas de bits: 32 a 256 Kbps/canal.
Indices de compresión: 2.7 a 24.
MPEG-2 /audio
Compatibilidad hacia atrás con MPEG-1.
Diseñado para sistemas de sonido multicanal.
36

Monografias.com

MPEG-1 audio.

El stream comprimido puede incluir información auxiliar (acceso aleatorio, avance y retroceso rápido, CRC, etc.)
Arquitectura de tres niveles
MPEG-1 Nivel I:
El más sencillo. Tasa de bits 192 Kbps/canal. Aplicaciones: Philips DCC
MPEG-1 Nivel II:
Complejidad media. Tasa de bits 128 Kbps/canal. Aplicaciones: DAB, CD-I, Vídeo CD.
MPEG-1 Nivel III:
El más complejo. Ofrece la mejor calidad de audio con tasas de bits sobre 64 Kbps/canal. Está preparado para N-RDSI.
Existen codecs hardware de los tres niveles para aplicaciones de tiempo real.
37

Monografias.com

MPEG audio: Fundamentos.

Se basa en la capacidad de percepción que tiene el oído humano (modelos psico-acústicos)
Enmascaramiento de señales débiles (noise masking):
38

Monografias.com

MPEG audio: Fundamentos.
Discriminación frecuencial limitada.
La agudeza (selectividad) del oído humano en baja frecuencia es muy superior que en altas frecuencias (sub-band coding)
39

Monografias.com

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter