L1 se usa generalmente como un almacenamiento para instrucciones decodificadas, mientras que L2 es un caché general para un solo núcleo. Cuanto más bajo es el caché, más pequeño es el tamaño y más rápido suele ser. Como regla general para los procesadores de PC:
Caché L1: acceso de ciclo de reloj de 2-3
Caché L2: ~ 10 ciclos de reloj de acceso
Caché L3: ~ 20-30 acceso de ciclo de reloj
El diseño de la memoria caché L1 debe ser maximizar la tasa de aciertos (la probabilidad de que la dirección de instrucciones o la dirección de datos deseadas estén en la memoria caché) mientras se mantiene la latencia de la memoria caché lo más baja posible. Intel usa un caché L1 con una latencia de 3 ciclos. El caché L2 se comparte entre uno o más cachés L1 y, a menudo, es mucho más grande. Mientras que la memoria caché L1 está diseñada para maximizar la tasa de aciertos, la memoria caché L2 está diseñada para minimizar la penalización por fallas (el retraso incurrido cuando ocurre una falla L1). Para los chips que tienen cachés L3, el propósito es específico para el diseño del chip. Para Intel, los cachés L3 aparecieron por primera vez en sistemas multiprocesadores de 4 vías (procesadores Pentium 4 Xeon MP) en 2002. El caché L3 en este sentido redujo enormemente los retrasos en entornos multihilo y eliminó la carga del FSB. En ese momento, los cachés L3 aún estaban dedicados a cada procesador central hasta que los procesadores Intel Dual-Core Xeon estuvieran disponibles en 2006. En 2009, los cachés L3 se convirtieron en un pilar de los microprocesadores Nehalem en sistemas de escritorio y servidores con múltiples zócalos.
Cita de aquí de la respuesta de "Pinhedd".