No tengo fuentes confiables, pero sí tengo experiencia en el diseño de un procesador muy simple que tomó el enfoque de dejar de evitar los peligros de la tubería para el programador, porque proporcionó una simplificación significativa de lo que se pretendía que fuera un diseño de procesador canalizado tan simple como sea posible.
Dicho esto, no creo que la escala de ahorro: puede que haya guardado un puñado de chanclas y varias puertas que hubieran sido necesarias para evitar esos peligros, y con solo ~ 60 chanclas (excluyendo el archivo de registro ) y ~ 100 puertas en todo el diseño que fue un porcentaje significativo, pero para un procesador más complejo, creo que la diferencia hubiera sido trivial.
La programación de instrucciones para un procesador de orden de pedido es un poco diferente, pero incluso así los costos son pequeños en relación con la complejidad del procesador, particularmente porque cuando empiezas a ver este tipo de optimizaciones es probable haber agregado algunos bloques de silicio comparativamente grandes para operaciones de multiplicación / división paralelas, sin mencionar el almacenamiento en caché, que probablemente sea más beneficioso en la mayoría de los diseños.
Hay una razón por la que casi nadie está diseñando comercialmente máquinas VLIW o EPIC: es una arquitectura que solo fue beneficiosa por un breve período de tiempo [1] en los años 90, y el diseño del procesador se ha movido más allá del punto en el que se encuentra cualquier mejora significativa.
[1] - al menos para sistemas de uso general de alto rendimiento. Para los procesadores integrados y los sistemas especializados como DSP y GPU, aún puede tener algún beneficio (debido a que generalmente tienen diseños que apuntan al extremo más simple, solo se repiten muchas veces para lograr el paralelismo, las compensaciones para ellos son mucho más cercanas a las compensaciones para 90s CPUs de propósito general), pero incluso allí no estoy seguro.