La principal limitación en la programación heterogénea de CPU + GPU parece ser la transferencia lenta de memoria a través del bus PCI-e cuando los datos se deben pasar de un lado a otro entre el dispositivo y el host. He leído que el objetivo de Fusion APU de AMD es resolver este problema. ¿Fusion APU intenta resolver este problema haciendo que la GPU y la CPU compartan una región de memoria física común? Y lo que realmente me pregunto es si el Tegra K1 (o X1) también intenta resolver este problema haciendo que la CPU y la GPU compartan una región de memoria física común, por lo que no es necesario realizar un cudaMemcpy.