Dudo mucho que cualquier simulador se acerque a ese nivel bajo. Todos los simuladores, como QEMU, hacen que las instrucciones de un entorno virtual se ejecuten en el procesador host. Si está "emulando" (yo uso ese término sin apretar) una arquitectura en otra (por ejemplo, uno de los muchos conjuntos ARM en un i386), al simulador no le importa cómo se ejecutaría un procesador ARM, solo le importa lo que se espera. El resultado de cada instrucción podría ser.
Los procesadores hacen mucho para obtener el resultado deseado de cada instrucción, y los procesadores modernos tienen complejidad en términos de líneas de instrucción, predicción de ramificación, almacenamiento en caché, procesamiento paralelo, etc. Ninguno de estos es necesario para obtener el resultado deseado en un simulador, ya que están diseñados para el rendimiento.
Nadie invertiría el tiempo (especialmente en software libre) para diseñar, por ejemplo, un procesador x86 desde cero en Verilog y luego ejecutar simulaciones en el nivel de hardware. Aparte de cualquier cosa, una simulación de este tipo demoraría una eternidad en ejecutarse; los meros nanosegundos tardarían minutos en simularse.