->MTB: Motion-Tracked Binaural Sound.

Como veíamos en el apartado anterior, uno de los mayores inconvientes de la técnica de grabación con dummy era la total falta de interactividad con el usuario. Sin embargo, su gran baza era que permitía el registro de un entorno sonoro complejo completo, con varias fuentes situadas en diferentes puntos del espacio y produciendo sonido simultáneamente.

Para tratar de solucinar el primer problema sin renunciar a las ventajas del método, en el 'CIPIC Interface Laboratory' de la Universidad de California han desarrollado un dispositivo capaz de aunar interactividad con la técnica de grabación con dummy y lo han denominado MTB: Motion-Tracked Binaural Sound.

En las grabaciones binaurales tradicionales se emplean únicamente dos micrófonos en los oídos la cabeza de un maniquí. Por ello, si el oyente moviera su cabeza, las señales sonoras que recibiría no se alterarían. Es como si el entorno acústico se desplazara rígidamente con su cabeza. En la mayor parte de los casos, además de percibirse una sensación incómoda y antinatural en el oyente, la imagen del sonido pasa a crearse en el interior de la cabeza, perdiéndose el efecto de la auralización.

Representación del sistema de grabación binaural tradicional. http://interface.idav.ucdavis.edu/CIL_html/CIL_MTB.htm

Para resolverlo, en el MTB no sólo se emplean dos micrófonos, sino un array de estos elementos situados alrededor de la cabeza del maniquí. Utilizando un 'head tracker' que monitoriza la posición de la cabeza en cada momento, y en particular, la posición de los oídos del usuario, se es capa de determinar qué señal (la proveniente de qué par de micrófonos) es la apropiada en cada caso. Se consigue así dar libertad de movimiento de la cabeza al menos en el plano horizontal. Éste es el grado de libertad más importante, pues en la mayoría de los casos, estaremos girando la cabeza en ese plano para dirigirnos a la fuente sonora a la que prestemos atención.

Sistema de grabación del MTB. http://interface.idav.ucdavis.edu/CIL_html/CIL_MTB.htm

Número de micrófonos necesarios.

Aplicando la tería de muestreo de señales, sabemos que son necesarias al menos dos muestras de una señal en su longitud de onda para poder reconstruirla sin perder información. El rango audible del ser humano llega hasta los 20 kHz, que se corresponde con una longitud de onda en el aire de 1,7 cm. Considerando que la circunferencia media de una cabeza es de aproximadamente 55 cm, parece necesario emplear un mínimo de 64 micrófonos (55 cm/1,7 cm · 2 muestras/longitud de onda = 64,7). Además, en el caso de querer utilizar interpolación lineal simple para las posiciones intermedias entre micrófonos, se puede ver que sería necesario doblar ese número para obtener resultados apropiados.

Afortunadamente, no es necesario interpolar en todo el rango audible. La mayor fuente de información para la localización del origen del sonido (al menos su azimut) es la diferencia de tiempo interaural (ITD). Como vimos en su apartado, estas diferencias de tiempo se vuelven totalmente ambiguas para frecuencias mayores de 1,5 kHz. Esto sugiere la aproximación ilustrada en la siguiente figura, en la que se utiliza un filtro paso bajo para restringir la interpolacion a las frecuencias menores, y la señal del micrófono más próximo a la posición del oído para reponer las frecuencias mayores, que no portan tanta información sobre el origen del sonido.

Diagrama de bloques del sistema de interpolación.

En la figura, Xn(t) y Xnn(t) son las señales registradas por el micrófono más proximo al oído y el siguiente, respectivamente. Como vemos, suponiendo que el oído se encuentra en una posición intermedia de ambos, se realiza una interpolación sólo a las frecuencias inferiores, filtrando el resultado paso bajo. Para restaurar las frecuencias altas, tomamos la señal del micrófono más cercano, la filtramos paso alto, y la añadimos al resultado de la interpolación.

Con esta técnica avanza de interpolación conseguimos reducir el número de micrófonos necesarios hasta los 8, que arrojan excelentes resultados para la reproducción de voz, y los 16 que los logran en música. El mayor número de micrófonos necesarios para la música se debe a que el espectro de la música se extiende en mayor medida que la voz hacia las frecuencias más altas, siendo necesario recuperar información presente en frecuencias mayores y, por ende menores longitudes de onda, lo que conlleva necesitar micrófonos más cercanos entre sí y, a su vez, un mayor número de éstos.

 

Combinaición con sonidos generados informáticamente.

Este dispositivo puede emplearse no sólo para la grabación de sonidos reales presentes en un entorno, sino también para la creación de grabaciónes a partir de sonidos generados por ordenador. Básicamente, se simula el sonido que percibirían los micrófonos situados alrededor del maniquí mediante la determinación de la HRTF característica de cada micrófono, en función de su posición respecto a la fuente. La HRTF's serán las asociadas a una esfera, para la que se tienen soluciones analíticas.

Los sonidos generados mediante este método tendrán una sonoridad muy 'seca', como si hubieran sido grabados en una cámara anecoica. Sin embargo, las reverberaciones y otras características acústicas del entorno pueden ser añadidas mediante procesado posterior para obtener una sensación más natural.

Además, se pueden combinar las señales así obtenidas con grabaciones de entornos reales para aumentar la sensación de realismo.