Lo que haría: primero trata de encontrar la frecuencia fundamental. Una voz que habla no tiene una nota fija en este sentido, por lo que debe hacerlo con una respuesta bastante rápida, un método de bloqueo de fase directo puede ser mejor que hacerlo con FFT. Luego alimenta esta frecuencia en un filtro de peine, para eliminar el fundamental y todos sus armónicos. Lo que queda es, entonces, idealmente, solo los ruidos de pop y siseo, ambos bastante bajos o bastante altos, por lo que el paso de banda al rango medio debería, para una señal de voz clara y única, dejar solo una señal restante muy débil. Por otro lado, para la música u otros ruidos, tiene una amplia mezcla de frecuencias en todo el rango medio, por lo que el filtrado de filtro no debilitará mucho el RMS. Por lo tanto, un nivel alto después del proceso de peinado / filtración de banda indicará que la fuente no era una voz limpia no .
Probé esto con un simple programa SynthMaker,
yaúnnoesrealmenteconfiable,peroenprincipiofunciona.
Resultadosoloparaelhabla:
La señal filtrfiltrada es 6 dB más débil que la única con paso de banda.
Resultado para la música (voz + guitarra acústica, solo para probar):
Aquí, la señal de filtro combinado es en realidad más fuerte (el filtro está normalizado incorrectamente).