Inicio
Conceptos básicos
Breve historia
Procesamiento digital
Aplicaciones

Síntesis de la voz. Introducción

La forma más habitual de comunicación entre las personas y las máquinas suele ser a través de una pantalla o visualizador, en la que el usuario lee una determinada información. Sin embargo, resulta más agradable poder recibir ciertas informaciones de la misma manera que nos comunicamos entre personas: mediante una comunicación oral en nuestro propio idioma.

Evaluando un sistema comercial actual, como por ejemplo el IBM via voice, se observa que la calidad de la voz sintética reproducida es inferior al habla natural, especialmente en lo que respecta a entonación y tipo de voz, pero resulta suficiente en multitud de aplicaciones. Especialmente si se busca más el aspecto práctico que la calidad. Además, incorpora la posibilidad de escoger entre diversos tipos de voces (masculina/femenina, joven/adulta, etc.).
Para evaluar la calidad de la voz sintética de un determinado sistema se suelen utilizar dos parámetros, válidos también a la hora de evaluar codificadores de voz:

Inteligibilidad: Está relacionada con la facilidad para comprender la señal oral. Normalmente se acostumbra a relacionar la inteligibilidad con el procesado segmental.

Calidad: Es un indicador de la "naturalidad" de los sonidos. Se acostumbra a relacionar con el procesado prosódico o suprasegmental (conjunto factores que afectan la pronunciación de una manera global, como la entonación, el ritmo y la intensidad del habla).

Se trata de conceptos distintos, y existen diversos parámetros para valorarlos, como el DRT (Diagnostic Rhyme Test) y el AI (Articulation Index). Por ejemplo, en el caso de codificación de voz mediante vocoder LPC se obtiene una señal con una alta inteligibilidad, pero la voz presenta un sonido sintético, e incluso puede ser difícil conocer la identidad de la persona que está hablando. Por otra parte, es poco probable que una voz con baja inteligibilidad sea calificada como voz de alta calidad, pero existen situaciones en las que la voz resulta agradable desde el punto de vista perceptual, sin que tenga una gran inteligibilidad. Sería el caso de una voz filtrada paso bajo, puesto que las altas frecuencias contribuyen en gran medida a la inteligibilidad del mensaje, pero su eliminación produce sonidos más agradables al oído. Esto se puede comprobar en ciertas situaciones en los receptores de televisión de nuestras casas, actuando sobre el control de agudos.

 01  02  03  04  05  06  07  08  09
El Portal del Webmaster
El Portal del Webmaster
El Portal del Webmaster

Página de teleco



 Downloads
 Links
 Conclusiones
 Experimentos
 Bibliografía
Resumen
Contacte con nosotros
Proyecto de la asignatura de Ingeniería de ondas I .