Bueno, podrías hacerlo para acelerar tu simulación, pero no es posible sintetizar esto y ponerlo en un FPGA. El código de Verilog es un lenguaje de descripción de hardware que describe la funcionalidad e interconexiones de su diseño. No se ejecuta como un programa, se sintetiza en el equivalente de un diagrama esquemático.
Podría ejecutar su algoritmo FFT en una CPU que está escrita en verilog, pero eso anula el propósito de usar un FPGA si necesita una FFT muy rápida. Sin embargo, hay núcleos FFT disponibles, por lo que no debería tener que reinventar la rueda. Creo que el generador central de Xilinx puede generar uno, o puede usar uno de un sitio como opencores.org.
Por cierto, la inversión de bits, si entiendo lo que quieres decir con eso, debería ser una operación trivial en un FPGA si se implementa correctamente.