La forma más habitual de comunicación entre las personas y las máquinas suele ser a través de una pantalla o visualizador, en la que el usuario lee una determinada información. Sin embargo, resulta más agradable poder recibir ciertas informaciones de la misma manera que nos comunicamos entre personas: mediante una comunicación oral en nuestro propio idioma.
Evaluando un sistema comercial actual, como por ejemplo el IBM via
voice, se observa que la calidad de la voz sintética reproducida
es inferior al habla natural, especialmente en lo que respecta a entonación
y tipo de voz, pero resulta suficiente en multitud de aplicaciones.
Especialmente si se busca más el aspecto práctico que
la calidad. Además, incorpora la posibilidad de escoger entre
diversos tipos de voces (masculina/femenina, joven/adulta, etc.).
Para evaluar la calidad de la voz sintética de un determinado
sistema se suelen utilizar dos parámetros, válidos también
a la hora de evaluar codificadores de voz:
Inteligibilidad: Está relacionada con la facilidad para comprender la señal oral. Normalmente se acostumbra a relacionar la inteligibilidad con el procesado segmental.
Calidad: Es un indicador de la "naturalidad" de los sonidos. Se acostumbra a relacionar con el procesado prosódico o suprasegmental (conjunto factores que afectan la pronunciación de una manera global, como la entonación, el ritmo y la intensidad del habla).
Se trata de conceptos distintos, y existen diversos parámetros para valorarlos, como el DRT (Diagnostic Rhyme Test) y el AI (Articulation Index). Por ejemplo, en el caso de codificación de voz mediante vocoder LPC se obtiene una señal con una alta inteligibilidad, pero la voz presenta un sonido sintético, e incluso puede ser difícil conocer la identidad de la persona que está hablando. Por otra parte, es poco probable que una voz con baja inteligibilidad sea calificada como voz de alta calidad, pero existen situaciones en las que la voz resulta agradable desde el punto de vista perceptual, sin que tenga una gran inteligibilidad. Sería el caso de una voz filtrada paso bajo, puesto que las altas frecuencias contribuyen en gran medida a la inteligibilidad del mensaje, pero su eliminación produce sonidos más agradables al oído. Esto se puede comprobar en ciertas situaciones en los receptores de televisión de nuestras casas, actuando sobre el control de agudos.