Parametrización en el Análisis de la voz
1.- Análisis localizado de la voz
2.- Análisis temporal localizado
3.- Análisis localizado en frecuencia
4.- Análisis de predicción lineal
5.- Análisis espectral localizado
1.- Análisis localizado de la voz
La señal de voz solo presenta características pseudo-estacionarias a corto plazo
Será necesario procesar la señal de voz en segmentos de corta duración: Análisis Localizado
El mecanismo que nos permite realizar este análisis es el enventanado de la señal
1.1.- Enventanado de la señal
s[n]: Señal de voz
w[n]: Ventana de análisis
N: Tamaño de la ventana
M: Desplazamiento
S[n]
(Gp:) w[n]
(Gp:) w[M-n]
(Gp:) w[2M-n]
(Gp:) w[3M-n]
N
(Gp:) M
1.1.- Enventanado de la señal
Perfiles: Rectangular, Hanning, Hamming, Blackman…
1.1.- Enventanado de la señal
Espectros de los perfiles:
Lóbulo principal
Lóbulos laterales
1.1.- Enventanado de la señal
Problemas del enventanado:
Produce derrame espectral (leakage).
El lóbulo principal dificulta la identificación de frecuencias cercanas entre sí.
Los lóbulos laterales introducen señal en frecuencias donde no debería haber nada.
Se debe llegar a un compromiso entre el ancho del lóbulo principal y la minimización de los laterales.
Generalmente se prefiere minimizar los lóbulos laterales.
Perfiles típicos para voz: Hanning/Hamming y rectangular.
2.- Análisis temporal localizado
Parámetros típicos que se suelen calcular:
Energía localizada (o en su defecto la magnitud)
Tasa de cruces por cero
Autocorrelación
Estimación de la frecuencia fundamental F0 (Pitch)
2.1.- Energía localizada
E[m]: Energía localizada
Energía localizada de la palabra “Hipotenusa”:
i p o t e n u s a
2.1.- Energía localizada
E[m]: Energía localizada
Esta ecuación se puede interpretar como:
Esto a su vez se puede interpretar como:
Siendo:
(Gp:) x[n]2
(Gp:) x[n]
(Gp:) h[n]
(Gp:) E[m]
2.2.- Magnitud
M[m]: Magnitud
Es un parámetro alternativo a la energía
Menor complejidad
Menor margen dinámico
Muestras elevadas pueden desvirtuar el valor de la energía al ser elevadas al cuadrado
2.2.- Magnitud
Ejemplo del cálculo de la magnitud para la palabra “Hipotenusa”
i p o t e n u s a
2.3.- Tasa de cruces por cero
Tcc[m]: Tasa de cruces por cero
Donde sgn() es la función signo definida por:
2.3.- Tasa de cruces por cero
Indica la relación entre la energía a baja y alta frecuencia.
Las señales sonoras dan un tasa menor que las señales sordas.
Tasa de cruces por cero de “Hipotenusa”
h i p o t e n u s a
2.4.- Aplicaciones E, M y Tcc
Entre las principales aplicaciones se encuentran:
Clasificación de sonidos
Sonoros/Sordos, etc…
Detector de actividad (VAD: Voice Activity Detector)
Uso en codificación:
Ej. GSM: para reducir interferencias y ahorrar batería.
Uso en reconocimiento:
Mayor eficiencia y evitar reconocimientos erróneos.
2.4.- Aplicaciones E, M y Tcc
Detector de actividad:
¿E[m] ó M
>
Umbral?
¿Tcc[m]
>
Umbral?
Voz
Ruido
Si
Si
No
No
2.5.- Autocorrelación
Rm[k]: Autocorrelación
Propiedades:
Es una función par
Tiene un máximo en k=0, i.e.:
Página siguiente |