IV. El conversor texto-voz

 

 

El conversor texto-voz (CTV) multilingüe se realizó a partir de la estructura del conversor en español. En esta estructura, se distinguen dos grandes bloques funcionales:

1. El bloque de proceso lingüístico

Los objetivos principales del bloque de proceso lingüístico consisten en obtener la cadena de alófonos (sonidos) que hay que pronunciar, así como la información sobre cómo pronunciar esos sonidos (la duración de cada uno y la entonación del discurso), a partir de un texto de entrada dado. El bloque de proceso lingüístico se compone de los siguientes módulos: normalizador, preproceso, categorizador, estructurador-pausador,  conversor grafema-alófono y generador de parámetros prosódicos.

 

2. El bloque de síntesis de voz

La síntesis de voz se realiza mediante la concatenación de unas unidades acústicas que previamente han sido diseñadas y grabadas, y que se encuentran recogidas en un inventario. La concatenación debe realizarse de manera controlada para obtener el discurso deseado sin discontinuidades, ajustándose a las duraciones y al contorno de la frecuencia fundamental (entonación), obtenidos por el módulo generador de parámetros prosódicos.

 

Uno de los problemas de la lectura de texto es que no es un proceso fácilmente divisible en tareas que se puedan separar de manera secuencial en el tiempo. Por ejemplo, el género que debe tener la expansión de un número no se puede determinar hasta que no se haya hecho algún tipo de análisis sintáctico para determinar las relaciones de dependencia entre las palabras del texto. Sin embargo, el módulo que realice este análisis seguramente no podrá manejar la variedad de un texto arbitrario y necesita que se haya realizado previamente un cierto preproceso, una de cuyas tareas típicas es la expansión de abreviaturas y números. Sin embargo, las estructuras no secuenciales son muy difíciles de realizar y aumentan la complejidad de un sistema ya de por sí bastante complejo. Por ello, la mayoría de los sistemas de conversión texto-voz adoptan una estructura secuencial, en el que las restricciones impuestas por la secuencialidad se intentan suplir con un uso inteligente de la información que comparten los distintos bloques y módulos componentes.

Una posible estructura del conversor texto-voz es la que se presenta en la figura 5.

En los siguientes apartados se hace un repaso más detallado de los módulos del CTV.

 

IV.1. El módulo normalizador

 

Su tarea principal consiste en detectar y reunir un conjunto de caracteres en el texto de entrada. Este conjunto de caracteres es el que compondrá la mayor unidad de trabajo (y de información) común al resto de los módulos del proceso lingüístico. Esta unidad de trabajo es lo que normalmente coincide con una frase, aunque no en un sentido lingüísticamente exacto.

Figura 5: Estructura del CTV

 

 

También realiza otra serie de tareas complementarias, como es detectar la forma (todo en minúsculas, con inicial mayúscula, etc.) en la que aparecen escritas las palabras (todo aquello que aparezca entre blancos), resolver algunas ambigüedades en la interpretación de los signos ortográficos, y hacer una primera y muy somera clasificación de las palabras (se compone sólo de letras, se compone sólo de dígitos, etc.).

La tarea de detectar las frases en el texto de entrada presenta numerosas ambigüedades y dificultades, pues no siempre se puede decir que un signo ortográfico determinado marque el final de una frase. Quizás el caso más complejo que se presenta es el del punto. Desde luego, un punto puede indicar fin de frase, pero también se emplea en otros muchos casos, como son las abreviaturas ("min."), los números ("10.423"), las iniciales de nombres ("J.L. Serrano"), etc. Distinguir estos casos no es siempre fácil. La solución adoptada ha sido permitir que el normalizador sólo detecte el final de frase en los casos más claros, y que deje pasar los casos más ambiguos. Por tanto, en ocasiones, la frase detectada por el normalizador contendrá, en realidad, más de una frase. El preproceso, que hace un análisis más detallado de cada palabra, será el encargado de decidir después si los posibles finales de frase intermedios lo son o no.

 

 

IV.2. El módulo de preproceso

 

Se encarga de expandir y modificar las palabras que recibe a su entrada, de manera que a su salida todo, excepto los signos ortográficos, haya sido reducido a palabras completamente alfabéticas que puedan ser procesadas por el resto de los módulos. Para reducir la variabilidad del texto de entrada, es necesario que el preproceso expanda en forma alfabética todo aquello que no se lee directamente tal y como aparece representado (cantidades numéricas, abreviaturas, representaciones de fechas, etc.). También se reduce la variabilidad de la escritura, pasando todo a letras minúsculas.

Una vez que todas las palabras ya se encuentran en forma alfabética, el preproceso realiza otra serie de tareas, como son la división en sílabas y la acentuación fonética.

 

A continuación se describen las distintas tareas del módulo de preproceso.

La expansión de formas

Se trata de expandir en palabras los números, abreviaturas, fechas, etc., que aparezcan en el texto. Esta tarea presenta dos dificultades generales, que hemos encontrado en todos los idiomas:

1. Conflictos entre los formatos de distintas expresiones. Por ejemplo, "C" puede ser un número romano, una clase de vitamina o un grado de la administración pública. Hemos realizado métodos heurísticos para aventurar el tipo de interpretación en función del contexto. Sin embargo, estos métodos no son infalibles y hemos decidido permitir que el usuario pueda decidir el tipo de interpretación, pues él sabe qué tipo de textos va a leer el CTV. Para ello, ha sido necesario disponer mecanismos por los que el usuario del sistema de conversión pueda decidir qué clases de expresiones van a aparecer en el texto y cómo deben leerse.

2. Aunque se haya identificado correctamente el tipo de expresión, a veces falta una norma o referencia que indique cómo debe pronunciarse (por ejemplo, en la expansión de una fecha, ¿cuándo se utiliza "de" y cuándo "del"?, o al tratar una sigla, ¿cuándo se deletrea, cuándo se expande o cuándo se lee como una palabra cualquiera del idioma?). Estas decisiones quedan al buen juicio del desarrollador, pero este buen juicio no tiene porque ser bueno, de acuerdo al juicio del usuario del sistema. Por eso, también en este sentido hemos intentado dar la máxima flexibilidad al usuario.

Además de estas dificultades, centrándonos en el aspecto multilingüe, aparecen otros problemas; en español, catalán, gallego y portugués es necesario cuidar la concordancia en la expansión de los números y las abreviaturas. En el caso de los números, éstos deben concordar con el sustantivo al que acompañan, si existe, y las abreviaturas deben expandirse en singular o plural, en función de las cantidades que las acompañen. Para realizar esta tarea de manera eficaz, es necesario retrasar la decisión sobre el género de las expansiones de los números hasta después de haber realizado la categorización, para así poder localizar el sustantivo al que acompañan (si existe) e intentar aventurar su género.

La silabicación

La silabicación se utiliza, fundamentalmente, para decidir la acentuación fonética de las palabras, para decidir en algunos casos sobre la conversión grafema-alófono y como ayuda para deletrear secuencias de letras que se consideran impronunciables. Se ha diseñado un sistema de reglas, que permite  realizar esta tarea. Este procedimiento presenta algunas limitaciones: no es capaz de recoger fácilmente criterios morfológicos (para silabicar "transatlántico", por ejemplo), se basa en la secuencia de letras y no de sonidos (por lo que si admitimos "[eksamen]" como transcripción de "examen", no es posible silabicar entre la oclusiva y la fricativa) y no tiene en cuenta fenómenos de contacto entre palabras (si fueran pertinentes). A pesar de estas limitaciones, el sistema es adecuado para las necesidades descritas al principio y ha demostrado ser lo bastante flexible para ser aplicado en todos los idiomas, sin demasiado esfuerzo.

 

La acentuación

Esta tarea determina si la palabra que se está tratando es átona o tónica y, en este último caso, sobre qué vocal recae el acento. Pueden aparecer formas cuya acentuación depende de la categoría gramatical de la palabra (por ejemplo, "sobre" puede ser tónica o

átona). También se identifican estos casos, en los que hay que esperar a que se haya realizado la categorización para poder deshacer la ambigüedad. Para realizar esta tarea, los idiomas español, catalán, gallego y portugués responden a un conjunto de reglas bastante bien definidas. Supuesta una silabicación correcta (para este propósito), la acentuación no presenta ningún problema. Aunque conceptualmente es un problema distinto, más propio del módulo conversor grafema-alófono, se ha decidido asociar la determinación del timbre de las vocales al acento, por razones prácticas.

 

IV.3. El módulo categorizador

 

La tarea principal de este módulo consiste en asignar a cada palabra una categoría gramatical. La información de la categoría gramatical se utiliza fundamentalmente para decidir sobre la inserción de pausas y su caracterización. Además, las categorías se emplean para la corrección del acento, en la determinación del género, en la expansión de los números y en la transcripción grafema-alófono. Esta tarea se compone de dos fases:

En la primera se decide la categoría de la palabra a partir de su forma, basándose en listas de excepciones, de terminaciones y de raíces. Para esta fase, se han desarrollado herramientas que, a partir de un diccionario, conjugan los verbos y generan las formas flexionadas. A continuación, se eligen automáticamente listas de terminaciones, y excepciones a esas terminaciones, que de manera óptima permiten la clasificación de las palabras (dentro de las limitaciones de memoria del entorno de funcionamiento del CTV).

En la segunda fase se resuelven las ambigüedades mediante reglas que tienen en cuenta el contexto en el que aparece la palabra (reglas de contexto). Al final de este módulo, con el mismo mecanismo de reglas de contexto, se realiza la corrección del acento que quedó pendiente en el módulo de preproceso.

 

IV.4. El módulo estructurador-pausador

 

La tarea principal de este módulo consiste en la localización de pausas no marcadas ortográficamente. Además, se caracterizan las pausas ortográficas y no ortográficas. Esta caracterización determina no sólo la duración de las pausas, sino también la evolución del contorno de la entonación.

Las pausas no marcadas ortográficamente se introducen cuando se detecta que no es posible (o natural) leer un fragmento de texto demasiado largo sin hacer ninguna pausa intermedia. Para la selección de puntos donde realizar pausas no marcadas ortográficamente se utiliza el mismo mecanismo de reglas de contexto del que se ha hablado anteriormente. Con estas reglas se forman grupos de palabras, entre los que no está permitido realizar pausas (semejantes a sintagmas de una estructura sintáctica plana), y posteriormente se asigna un peso o probabilidad de realizar una pausa a cada límite entre dos sintagmas. A continuación se elige el mejor punto para realizar la pausa, basándose en los pesos asignados y en criterios rítmicos. De momento, estos criterios son independientes del idioma (es decir, se han tomado los que se venían utilizando en español), si bien han demostrado un buen funcionamiento en todos los idiomas tratados hasta el momento.

Finalmente, se caracterizan las pausas, tanto las ortográficas como las introducidas por este módulo. Para esta caracterización se utiliza un conjunto de tipos de pausas posibles.

 

IV.5. El módulo conversor grafema-alófono

 

Su función es obtener la secuencia de sonidos (alófonos) correspondiente a la secuencia de letras de una frase dada. Para ello, se sirve de informaciones de distinto tipo, obtenidas en los módulos anteriores. Lo primero que hubo que hacer para el CTV multilingüe, fue diseñar un conjunto de alófonos que cubriera las necesidades de todos los idiomas considerados. Se amplió el conjunto de alófonos del CTV español, al que se incorporaron todos los alófonos adicionales necesarios.

Se empleó un procedimiento de reglas para realizar la transcripción fonética. Cada idioma cuenta con unos ficheros de reglas propios, que son parte de las tablas que hay que cargar y seleccionar para que el CTV funcione en un idioma determinado. La transcripción se hace partiendo de los caracteres silabicados y acentuados fonéticamente de las palabras de una frase. La acentuación fonética también indica el timbre adecuado de las vocales en los idiomas catalán, gallego y portugués.

Sobre todo en el caso del catalán, aparecen diversos procesos fonológicos de asimilación que dificultan la realización de la transcripción fonética de una manera secuencial, desde el principio hasta el final de la frase. Para solucionar este problema se ha dividido el proceso de transcripción fonética en dos fases:

1. La primera trabaja recorriendo los caracteres silabicados, y acentuados fonéticamente, desde el principio hasta el final de la frase. En aquellos casos en que no se puede decidir el alófono concreto, equivalente a un carácter (o caracteres), porque depende de alguna característica del alófono siguiente (que todavía no ha sido obtenido), se genera temporalmente un alófono que recoge la ambigüedad encontrada.

2. La segunda recorre los resultados de la primera fase en orden inverso (desde el final hasta el principio) y va resolviendo las ambigüedades que quedaron pendientes.

 

Uno de los problemas que queda pendiente de resolver es el caso de las transcripciones fonéticas "forzadas". Por ejemplo, cuando nos encontramos con una palabra que en algunas ocasiones hay que pronunciar de acuerdo a las reglas de un idioma, y que en otras hay que pronunciar de acuerdo a las reglas de otro idioma distinto. Este es un caso relativamente frecuente con los nombres y apellidos de personas. De momento, la transcripción fonética siempre se hace de acuerdo a las reglas del idioma seleccionado en el CTV multilingüe.

 

IV.6. El módulo generador de parámetros prosódicos

Una vez obtenida la secuencia de alófonos, es necesario añadirles más información para determinar la manera en que deben ser pronunciados o entonados. La tarea de este módulo consiste en asignar duración a cada uno de los alófonos generados en el módulo de conversión grafema-alófono (incluidas las pausas) y un contorno entonativo a cada grupo fónico. La naturalidad al hablar se consigue con una buena entonación, la cual puede ser incluso necesaria en algunos casos para la inteligibilidad del mensaje. Por ejemplo, la frase "Él dijo su amigo es un mentiroso", se puede pronunciar de forma diferente, de manera que se podría interpretar de cualquiera de los siguientes modos: "Él dijo: su amigo es un mentiroso", o "Él, dijo su amigo, es un mentiroso". En este caso, la entonación contribuye a que cambie el significado del mensaje. Por esto, la entonación se considera uno de los principales responsables de la calidad de un conversor texto-voz.

La entonación se considera, físicamente hablando, como una combinación lineal de 3 parámetros: frecuencia fundamental, duración y amplitud, y según varíen estos parámetros, la entonación será diferente.

El modelo de duraciones es un modelo multiplicativo, el cual calcula la duración de cada sonido a partir de una duración base, que se modifica en función de distintos factores dependientes del contexto (naturaleza de los sonidos adyacentes, acentuación o no acentuación, proximidad al fin o al inicio del grupo fónico, etc.).

El modelo de entonación asigna un contorno entonativo a cada grupo fónico, extraído de una base de datos de contornos patrón, caracterizados en función del número de sílabas tónicas del grupo, del tipo de pausa que lo finaliza, y de si acaba en sílaba tónica o átona. Se busca el contorno más adecuado al grupo fónico que se está tratando en cada momento y, en el caso de que no se pueda encontrar un contorno apropiado, se construye uno, concatenando modelos de fragmentos correspondientes a tres zonas del grupo fónico: inicial (hasta la primera sílaba tónica), central y final (desde la última sílaba tónica hasta el final).

Para poder ajustar los parámetros de los modelos de duración y de entonación, es necesario disponer de un banco de datos de voz con información prosódica. Este banco de datos se obtiene seleccionando un conjunto de textos, que cubran todos los factores de los modelos (así como otros factores no contemplados que se deseen validar), y grabando a un locutor. A continuación se añade información prosódica (se segmentan los sonidos, se calculan los contornos entonativos, y se enriquece el texto con información de acentos y pausas) y se generan los parámetros de los modelos de duración y de entonación por métodos estadísticos.

El empleo de bancos de datos de voz, junto con la automatización parcial del proceso de obtención de los modelos de prosodia, permitirán personalizar la caracterización prosódica de la voz sintética del conversor, tanto para los nuevos idiomas que se añadan, como para las nuevas voces sintéticas (locutores) que se quieran desarrollar para un idioma ya incorporado en el CTV.

 

IV.7. El bloque de síntesis

 

El bloque de síntesis de voz no se subdivide en módulos. Su tarea es generar la voz sintética a partir de la información de alófonos y prosodia, así como la correspondiente al inventario de unidades. Este módulo es totalmente independiente del idioma. Maneja el conjunto de alófonos común a todos los idiomas, y la particularidad de cada uno queda recogida en su inventario de unidades, una tabla que, como todas las tablas propias de un idioma, se puede cargar, así como descargar y sustituir por otra, de manera dinámica.

Los parámetros acústicos (dependientes del modelo de síntesis empleado) de cada alófono quedan recogidos en el inventario. Sin embargo, la caracterización sonoro/sordo del alófono y su tratamiento por el modelo de síntesis (en el caso del modelo LPC) se hace por código. Así, mientras que en español sólo se tienen alófonos sonoros o sordos, al incluir el catalán aparecen sonidos fricativos sonoros, que precisan una caracterización mixta en el modelo de síntesis LPC.

Por otra parte, las peculiaridades del conjunto de alófonos de cada idioma es un factor que hemos de tener en cuenta, aunque haya quedado recogido en una tabla ajena al código. Al aumentar el número de alófonos, y sobre todo el número de vocales (se consideran 5 vocales en español y euskera, 7 en gallego, 8 en catalán y 14 en portugués), aumenta de manera importante el tamaño de dicha tabla. Puesto que el sistema tiene que funcionar con unos recursos limitados de memoria, esta característica puede repercutir en una merma de la calidad acústica de los inventarios con mayor número de alófonos, al ser necesario restringir las combinaciones recogidas, o bien aplicar una codificación más fuerte para reducir el tamaño final del inventario.

El procedimiento que se usa de forma más común para generar la voz sintética en los sistemas de conversión texto-voz consiste en la concatenación controlada de unidades acústicas, previamente extraídas de grabaciones realizadas por una persona. Estas unidades deben ser modificadas en su duración y entonación para que se ajusten a la prosodia sintética generada por el conversor texto-voz cuando tiene que pronunciar una frase.

Este tipo de técnica de síntesis produce actualmente una voz con una inteligibilidad y naturalidad superior a otras, pero tiene que contar con procedimientos para solucionar los problemas derivados de la concatenación de unidades acústicas que han sido grabadas en diferentes ficheros de voz y en diferentes instantes de tiempo, y que tienen características acústicas distintas.

La concatenación de unidades acústicas nos ayuda a solucionar un problema muy difícil de modelar, como es el caso de preservar la forma en que las personas realizan cada uno de los sonidos y las transiciones entre ellos; pero también nos introduce un problema importante: ¿cómo concatenar fragmentos de señales de voz que son bastante distintos a ambos lados de un punto de concatenación? Fundamentalmente, al concatenar se producen dos tipos de discontinuidades:

1. Diferencias en el espectro de amplitud (caída espectral, frecuencia y ancho de banda de los formantes). Este tipo de diferencias se percibe claramente como un cambio brusco en el timbre del sonido.

2. Errores de sincronización de los sonidos sonoros. Cuando hay diferencias en las componentes lineales del espectro de fase, se produce un desalineamiento entre uno o más periodos de la señal, que rompe la periodicidad propia de los sonidos sonoros. Este tipo de errores se percibe como sonidos "poco limpios", con "golpes" y con alteraciones en la entonación (rápidas y bruscas subidas o bajadas de la frecuencia fundamental). Este tipo de discontinuidad se puede denominar "incoherencia entre tramas". En los sonidos sordos (que no tienen una forma de onda periódica), la "incoherencia entre tramas" no es importante perceptualmente.

 

Para aliviar el primer tipo de discontinuidades, la solución que se adopta más comúnmente consiste en realizar una interpolación de las envolventes espectrales. Una simple interpolación lineal basta para hacer que las discontinuidades de la caída espectral y de los formantes sean menos perceptibles (si bien, el problema no se soluciona completamente, sobre todo cuando hay diferencias muy importantes a la izquierda y a la derecha del punto de concatenación).

El segundo tipo de discontinuidades es más difícil de resolver. Hasta el momento, se han empleado dos procedimientos diferentes para eliminar el problema de los "desalineamientos de fase" al hacer la concatenación de las unidades acústicas. Estos son:

1. Hacer un marcado de los instantes de cierre de la glotis en las unidades acústicas. Estos instantes (normalmente llamados "epochs" u "onsets") indican un punto en cada periodo de los sonidos sonoros, que se relaciona de forma síncrona (armónica) con los periodos adyacentes, de los cuales está separado por la duración del periodo fundamental (el inverso de la frecuencia fundamental, que coincide con la frecuencia de vibración de las cuerdas vocales). Al marcar los instantes se puede hacer que las ventanas de análisis de las unidades acústicas estén centradas en estos puntos, además se sabe que al combinar las tramas acústicas durante la síntesis, todas ellas estarán centradas en puntos relacionados armónicamente con la trama anterior y con la trama siguiente, evitándose así los desalineamientos de fase. El problema es que la tarea de marcado de los "onset" es un proceso que lleva mucho tiempo, porque precisa de un cuidadoso repaso manual.

2. Sustituir la fase original de la señal, suponiendo que ésta es de fase mínima. Cuando se supone que una trama de voz es de fase mínima, la fase de la señal está determinada por el espectro de amplitud de dicha señal. Esto equivale a desplazar cada una de las tramas de análisis, haciendo que la forma de onda de la señal aparezca con uno de sus periodos centrados en la trama de análisis. La principal virtud de este procedimiento es que nos permite eliminar el problema de la sincronización entre tramas sucesivas sin necesidad de hacer un marcado de los "onset". El inconveniente que tiene es que aunque la hipótesis de fase mínima es bastante aproximada para muchos locutores y para la mayoría de los sonidos, hay ciertos locutores y cierto tipo de sonidos (por ejemplo, los sonidos nasales) en los que la hipótesis de fase mínima no es adecuada e introduce alguna distorsión.

La estrategia que se ha decidido utilizar para obtener un modelo de síntesis de mayor calidad ha sido emplear un modelo sinusoidal que tenga en cuenta la fase verdadera de la señal de voz, puesto que la hipótesis de fase mínima no permite respetar la forma de onda de los periodos de la señal de voz original, aunque sí su contenido en frecuencia.

Dado que la hipótesis de fase mínima introduce distorsión en la señal de voz, incluso en el caso de no pegar trozos procedentes de distintas grabaciones, se ha podido comprobar, en experimentos de análisis y resíntesis (es decir, sin pegar trozos de distintas grabaciones), que el modelo sinusoidal con fase es capaz de reflejar más fielmente las características de la grabación original que el modelo de fase mínima.

 

El problema de los desalineamientos de fase se está tratando como una cuestión de sincronización de señales de voz. Es decir, se pretende obtener un punto de cada trama de análisis de voz que permita "realinear" o "desplazar" dichas tramas, de manera que cualquier trama de cualquier fichero de voz esté centrada en un punto de características semejantes. Esto permite construir una secuencia de tramas sin problemas

de sincronismo.

 

Basándonos en la propiedad de la transformada de Fourier, de que un desplazamiento en el dominio del tiempo equivale a añadir una componente lineal al espectro de fase de la señal original, y usando las propiedades del centro de gravedad de las señales, se puede modificar el espectro de fase de la señal original, de manera que la señal resultante sea igual a la señal original, con su centro de gravedad desplazado al centro de la trama de análisis. De esta manera se pueden sincronizar todas las tramas de análisis.

 

Hasta el momento, las pruebas hechas con el modelo sinusoidal con fase han presentado resultados muy prometedores, si bien quedan por mejorar algunos aspectos, como son la robustez de los puntos de sincronización, la necesidad de reducir la memoria ocupada para almacenar la información del espectro de amplitud y fase de las tramas, y el uso de unos parámetros adecuados que permitan, por un lado, hacer una adecuada interpolación de la información espectral y, por otro, reducir el tiempo necesario para hacer la síntesis de voz.

 

Un ejemplo del proceso llevado a cabo con un texto, en concreto la frase “José Luis López tiene 201 viñas”,   hasta convertirlo en voz se puede observar en la figura 6.   

Figura 6: Ejemplo de uso del CTV

 

IV.8. Aplicaciones del conversor texto-voz

 

Un conversor texto-voz se emplea en cualquier situación en la que sea necesario presentar información de forma hablada, cuando esa información sólo se encuentra disponible en forma escrita, bien directamente o bien porque se puede convertir fácilmente a texto (por ejemplo, los campos de información que se encuentran en una base de datos).

Un ejemplo destacable del uso de los conversores texto-voz es como alternativa o complemento a la presentación visual de la información en la pantalla de un ordenador. Piénsese en el caso de los invidentes o deficientes visuales que, de esta forma, pueden tener un medio que constituye una gran ayuda para manejar unas herramientas, tan importantes hoy en día, como son los ordenadores. Así se puede contribuir a mejorar la integración laboral de estas personas, y facilitar su acceso a la información (lectura de periódicos, libros, páginas web, etc.).

Otro ámbito de interés en el que se pueden usar los conversores texto-voz es el caso de un usuario que desea poder acceder a una información desde cualquier sitio y en cualquier instante, sin necesidad de disponer de un ordenador conectado a la red, y sin tener en cuenta si en ese momento hay disponible un operador humano que pueda darle esa información (por no estar en el horario de atención al público, o por no contar con un número suficiente de operadores y estar todos ocupados). En este caso, la solución más directa es poder acceder a esa información desde un teléfono convencional, llamando a un sistema automático que le proporcione esa información. La ventaja de este procedimiento es que prácticamente desde cualquier sitio se puede hacer una llamada telefónica, especialmente teniendo en cuenta la amplia difusión que han alcanzado los teléfonos móviles. La llamada telefónica se dirige a un ordenador especializado (servidor vocal) que puede acceder a la información deseada, pasarla a forma de texto (si es que originalmente no se encontraba ya en esa forma), y proporcionar esa información al usuario, convertida previamente en voz por un conversor texto-voz. Algunos ejemplos de este uso de los conversores texto-voz son las consultas de información bancaria (saldos y movimientos de una cuenta), la información de consumo de un suministro (llamadas telefónicas, gas...), los servicios de noticias, la información administrativa (servicios, estado de la tramitación de una solicitud...) y la información de espectáculos (cines, teatros, televisión...).