Para apreciar mejor la deferencia entre ambos tipos de sonidos, se ha realizado una ampliación de una pequeña parte de la frase correspondiente a los fonemas /f/ (sordo) y /u/ (sonoro) extraídos de la palabra "fue". En este oscilograma se aprecia el carácter ruidoso de la /f/ y periódico de la /u/, así como sus diferentes amplitudes.
La representación en el dominio transformado mediante la FFT (Transformada Rápida de Fourier) supone una visualización alternativa. Estas representaciones reciben el nombre de espectrogramas, o representaciones de la amplitud en función de la frecuencia. La señal de voz es limitada en banda, a unos 8 kHz. Sin embargo, la mayor parte de la información se encuentra en los primeros 4 kHz, que es aproximadamente el ancho de banda utilizado en las comunicaciones por vía telefónica.
Es posible observar que la periodicidad del fonema /u/ correspondiente a la segunda mitad de la figura superior, se aprecia en el espectrograma mediante la existencia de una frecuencia fundamental y una serie de armónicos equiespacidos esta misma frecuencia. Esta frecuencia recibe el nombre de pitch (tono), y está directamente relacionada con la frecuencia de vibración principal de las cuerdas vocales. El margen habitual para locutores masculinos adultos del valor del pitch es de 50 a 250 Hz (periodo 20 a 4 ms o 160 o 32 muestras al trabajar con frecuencias de muestreo Fm = 8 kHz), mientras que para locutoras se encuentra entre 120 y 500 Hz (periodo de 8,3 a 2 ms o 66 a 16 muestas con Fm = 8 kHz).