El sonido, como lo experimenta la gente, es una onda de presión viajera causada por algo que se movió. Su cerebro reinterpreta esa presión como algo significativo, y puede separar los sonidos que provienen de diferentes fuentes y en diferentes direcciones, lo cual es bastante bueno teniendo en cuenta que solo tenemos los dos tímpanos.
Estas ondas de presión generalmente tiemblan alto y bajo; si no lo hacen, en realidad es solo una explosión. Cuantas veces sube y baja en un segundo es su frecuencia. La frecuencia se mide en hercios, lo que significa "cuántas veces por segundo ocurre esto". Bueno, aproximadamente.
Las computadoras NO funcionan como los cerebros. No pueden simplemente decir que hay diferentes sonidos presentes. Realmente solo pueden obtener qué tan alta es la presión en la ola punto por punto. Pero pueden hacerlo realmente muy rápido . Eso se llama muestreo.
La FFT es la transformada rápida de Fourier. NO es una cosa simple entender cómo hacerlo, realmente. Pero lo que hace, es usar las matemáticas para desglosar las muestras que tomamos con una computadora en todas sus partes para que la computadora pueda encontrar diferentes frecuencias escondidas en el sonido. . Es una forma computarizada a alta velocidad complicada de hacer exactamente lo que hace tu cerebro cada vez que tienes que escuchar a dos personas que intentan hablar contigo al mismo tiempo, o decir la diferencia entre el maullido de un gato y el ladrido de un perro.
Cuando se realiza la Transformada Rápida de Fourier, ahora sabemos qué tan fuertes fueron cada una de las piezas del sonido, más o menos mientras se hace ese sonido, porque es muy rápido. ¿Alguna vez has visto esos pequeños bares en la parte frontal de un estéreo que saltan hacia arriba y hacia abajo con la música? Ese es un tipo de espectrograma. Cada barra o línea indica qué tan fuerte es cada banda de frecuencias diferente, y lo obtuvimos directamente de la FFT.
Lo he intentado lo mejor posible: hacer más preguntas. No se desanime. Es difícil empezar.