En el documento "Mejora del rendimiento del Acelerador FPGA basado en OpenCL para convolucional Red neuronal " en la tabla 6 hay una métrica llamada Performance Density
. Se define como the number of arithmetic operations that one DSP slice executes in one cycle
. Existen los valores 2.8 respectivamente 3.06 ops / DSPslice / cycle informados.
Al mirar el DSP de Arria 10 en modo de punto flotante , puede ejecutar una multiplicación y una acumulación en un ciclo (A * B + C). Eso significa que el máximo es 2 ops / DSPslice / cycle.
¿De dónde viene la diferencia? ¿Me perdí algo?