No soy un experto en FPGA (como verás obviamente), pero estas podrían ser algunas ideas (probablemente ingenuas):
1) Trate de provocar un cambio de voltaje en la mayor cantidad de estructuras CMOS que pueda, dentro del FPGA y a la velocidad más rápida posible. Opciones para eso:
1.1) Cree tantos inversores como sea posible en su FPGA (con suerte, el software no realizará optimizaciones), conéctelos en cascada y condúzcalos a todos con un reloj externo que funcione a la frecuencia más alta tolerable.
1.2) Si, simplemente sintetizando inversores, no puede hacer uso de toda la lógica de la estructura de propósito general existente, intente ver, examinando los detalles de cómo se implementó, cómo podría provocar la activación de tantos como sea posible.
1.3) Si el FPGA tiene RAM, dedique una pequeña parte de la lógica anterior a provocar cambios de dirección en todos los bits de RAM, a la velocidad más alta posible.
1.4) Si la FPGA tiene estructuras DSP dedicadas, póngalas también en tensión.
Todo esto, sincronizado por el reloj externo.
Para que todo lo que se puede controlar gradualmente, de 0% a 100%, varíe la frecuencia de ese reloj externo. O bien, dedique una pequeña parte de la lógica de la estructura a tener un contador de división por N, de modo que sea la salida de ese contador lo que impulsa todo lo que mencioné.