Inicio
Conceptos básicos
Breve historia
Procesamiento digital
Aplicaciones

Síntesis de voz. Conversión texto-voz
Primer bloque: Análisis lingüístico del texto

En este apartado se va a tratar de explicar el primer bloque que corresponde a:

Función:

Realiza la conversión de los símbolos fonéticos que integran el texto escrito, usando reglas gramaticales propias del lenguaje. En primer lugar, se realiza una normalización de formato, consistente en eliminar todos aquellos caracteres que no corresponden a palabras que se puedan transcribir directamente, sino que a veces forman parte de encabezados, abreviaturas, fechas, acrónimos, etc. En estos casos, será necesario expandir a su forma ortográfica, mediante diccionarios y reglas.

Dependiendo de la complejidad de la aplicación, se pueden considerar hasta cuatro niveles de análisis lingüístico: fonético (pronunciación), sintáctico (estructura gramatical), semántico (representación de los significados), y pragmático (análisis del discurso). Todos los convertidores presentan como mínimo el nivel fonético ya que es el que proporciona la pronunciación del texto, es decir, la conversión de los grafemas (corresponde a una letra del alfabeto) en fonemas. A medida que los sistemas crecen en complejidad, requieren la incorporación de más niveles de análisis y, por tanto, de técnicas más avanzadas de procesado de lenguaje natural.

Lógicamente, la facilidad para realizar la transcripción fonética dependerá del idioma con que se este tratando. Por ejemplo, resultará más sencillo en español que en inglés, ya que en el primer caso existe una gran concordancia entre la grafía y la fonética, que simplifica el análisis. En cambio, en el caso del inglés habrá que recurrir a un análisis morfológico. La cantidad de reglas necesarias para la transcripción correcta ha originado otras alternativas como los modelos conexionistas.

Existe una notación estándar en Europa para representar el alfabeto fonético mediante caracteres ASCII, que recibe el nombre de alfabeto SAMPA. El análisis de la estructura sintáctica permite a los módulos posteriores de generación prosódica determinar correctamente la localización de los grupos entonativos. De esta forma, se especifica cómo segmentar las frases en grupos de palabras con un patrón entonativo único. Para resolver las ambigüedades en la transcripción de los homónimos (palabras que se escriben igual pero pueden tener pronunciaciones distintas), se hace necesario un análisis semántico del texto que ayude a determinar la pronunciación correcta.

Para mejorar la naturalidad de la señal sintetizada se puede aplicar una prosodia diferente a las palabras según su función en la frase y su relación con el contexto. En el caso de sistemas de diálogo, donde el texto se produce artificialmente en el propio ordenador, es importante saber aprovechar los modelos de generación del lenguaje que se han utilizado con el objetivo de facilitar el análisis sintáctico y no tener que duplicar esfuerzos.

 01  02  03  04  05  06  07  08  09
El Portal del Webmaster
El Portal del Webmaster
El Portal del Webmaster

Página de teleco



 Downloads
 Links
 Conclusiones
 Experimentos
 Bibliografía
Resumen
Contacte con nosotros
Proyecto de la asignatura de Ingeniería de ondas I .