Voz es lo que llamamos "banda limitada". Lo que significa que tiene una banda de frecuencia bastante bien definida. Un aplauso es esencialmente un "impulso" que es "banda ancha" y, por lo tanto, tiene un rango de frecuencia muy amplio.
Para decirlo de otra manera, si miras el análisis de espectro de la voz, verás cosas en el rango de 200 Hz a aproximadamente 12 KHz. Si hicieras lo mismo con una palmada, verías cosas desde 100 Hz hasta más de 20 KHz.
Un aplauso también ocurre rápidamente, donde la voz sigue y sigue (y sigue y sigue y sigue :)
Para crear algo que pueda distinguir entre un aplauso y una voz alta, entonces empezarías por tomar el audio y dividirlo en tres o más bandas de frecuencia. Digamos que < 200 Hz, 400Hz a 8 KHz, y > 13 KHz. Luego, haría un detector para cada banda que detectaría picos mayores que algún umbral, pero no por más de aproximadamente 200 ms. Si obtiene un pico corto en las tres bandas, entonces ha detectado un aplauso. Si no obtiene las tres bandas, o es superior a 200 ms, solo tiene voz alta.
Nota: Estoy haciendo una suposición educada sobre las frecuencias que he mencionado aquí. Son aproximadamente correctos, pero no son 100% exactos. SI quiere hacer este enfoque, puedo hacer una prueba realista con un equipo de sonido real para obtener las frecuencias exactas y los límites de tiempo. Me tomaría aproximadamente una hora hacerlo, así que no quiero hacerlo si no estás hablando en serio. Pero si habla en serio, esto podría ahorrarle mucho tiempo (mucho más de una hora).