El hecho de que tome un ciclo de reloj significa que se realiza de manera combinatoria, es decir, no hay bloques de memoria dentro. El punto es que en un sistema digital el reloj es la base de tiempo, por lo tanto, cualquier intervalo de tiempo dura un múltiplo entero de ciclos de reloj. Como nada puede ser instantáneo, el intervalo de tiempo más pequeño es un ciclo de reloj, por lo que un módulo puramente combinacional necesitará (si está bien construido) al menos un ciclo de reloj. Eso es una especie de convención de todos modos.
Sin embargo, puede verlo desde otro punto de vista: su lógica combinacional tendrá algunas entradas y algunas salidas, y dado que es un sistema de reloj digital, tendrá un registro en la entrada y otro en la salida. Si conecta más de un módulo combinacional en cascada, puede verlos como un gran módulo combinatorio WLOG. Cuando coloca en el registro de entrada una entrada válida, espera una salida válida en el registro de salida, pero estará disponible solo después de al menos un ciclo de reloj.
Sobre su pregunta de Ethernet, si ahora lo piensa, estoy seguro de que puede comprender por qué se debe agregar un ciclo: en un sistema sincronizado digital (sincronizado) todo sucede en uno de los bordes del reloj, por lo que cuando la entrada es válido, debe esperar el siguiente borde antes de consumir la salida para asegurarse de que la lógica combinacional hizo su trabajo.