No soy nuevo en arquitectura de computadoras, pero solo tengo experiencia académica con la implementación de microarquitecturas.
He escuchado y leído esto muchas veces, pero nunca me molesté en comprender la afirmación: Algunas instrucciones se completan en 1 o 2 ciclos de reloj, mientras que las instrucciones más complejas dicen que el entero o el punto flotante se completan en 2, 4, 6 ciclos de reloj o cargue / almacene en ciclos de reloj de 80-100 debido a una memoria lenta.
Ahora estoy seguro de que la mayoría de los procesadores, ya sea embebidos o de escritorio, tienen pocas etapas de tuberías, desde 5 etapas hasta 30 etapas. Por lo tanto, la latencia para cada instrucción debe ser igual a la profundidad de la tubería o al número de etapas de la tubería. Además, el rendimiento de un solo procesador escalar de tubería puede ser de un máximo de 1 IPC (Instrucciones por ciclo). Pero, ¿cómo pueden algunas instrucciones terminar en 1,2 o 4 ciclos de reloj para un procesador con 10 etapas o 12 etapas? ¿Puede alguien explicarme eso?
PS: Lo único que puedo entender es que tal vez algunas etapas están marcadas como una etapa de Ciclo múltiple, como se hace generalmente durante la STA y el cierre de tiempo. ¿Y que están tratando de decir que la ejecución de la instrucción toma 1cc, 2cc, 4cc, etc. en esa etapa particular de varios ciclos?