Sí, los FPGA son excelentes para implementar cosas masivamente paralelas.
Muchas personas han puesto 8 o más CPU en un FPGA, no es simplemente "en principio".
Echa un vistazo a la imagen del plano en el artículo
"Un sistema de 24 procesadores en el chip FPGA Design with Network on Chip"
por Zhoukun WANG y Omar HAMMAMI.
Ese plano de planta hace que sea bastante obvio que ese FPGA en particular está bastante lleno de cosas.
Los 24 núcleos de la CPU (cada uno de ellos es una CPU MicroBlaze de 32 bits con un total de 32 KByte de instrucciones locales y memoria de datos) llenan aproximadamente la mitad del FPGA (alrededor del perímetro).
El enrutamiento entre los núcleos de la CPU y los 4 buses externos independientes prácticamente llena todo el resto del FPGA.
(Cada uno de los buses externos tiene 64 bits de datos más algunas señales de control, lo que lleva a un módulo de memoria DDR2 independiente).
(Este IC en particular también incluye dos núcleos duros de CPU PowerPC 405 además del tejido FPGA - Zhoukun y Omar aparentemente no se molestaron en usarlos).
Como otras personas aquí han señalado, dividir "número de puertas en un FPGA" por "número de puertas en una CPU" es demasiado optimista.
En este caso, 142,128 LUT en un Xilinx FPGA Virtex-4 FX140 dividido por aproximadamente 1000 LUT requeridos para un MicroBlaze de tamaño mínimo, da (optimistamente) 142 CPU por chip.
Entonces, ¿está decepcionado de que aparentemente "solo" caben 24 CPU en esa estructura FPGA (sin contar los dos núcleos duros PowerPC 405 fuera de la estructura FPGA en ese IC)?
Un FPGA de 1 millón de compuertas dividido por una CPU de 50k compuertas da (de manera optimista) 20 CPU por chip.
Creo que tendrás suerte si aprietas hasta 4 CPU en ese FPGA.
"Es asombroso lo que puedes exprimir
en estas partes si diseñas el
arquitectura de la máquina con cuidado para
explotar los recursos FPGA. A diferencia de,
hubo un articulo muy interesante
en un reciente EE Times por un compañero de
Automatización haciendo 6502 virtuales en
VHDL, luego sintetizándolas en
Arquitecturas FPGA arbitrarias.
A pesar de que el diseño 6502 se utiliza solamente
alrededor de 4000 "puertas ASIC" no lo hizo
encaja bastante en un XC4010, un llamado
"10,000 gate" FPGA. Eso es un doble problema
RISC de 32 bits debe caber, y un 4 MHz
6502 no, dice mucho
sobre síntesis VHDL vs. manual
Colocación, sobre arquitecturas heredadas.
contra los personalizados, y tal vez incluso
algo sobre CISC vs. RISC ... "
- Jan Gray
El Wikipedia: artículo "procesador de software" tiene más información sobre el empaquetado de múltiples CPU en un solo FPGA.