Los números dados en píxeles o megapíxeles nos dicen la cantidad de píxeles (o sensores) que el hardware puede procesar.
Un marco de fotos es una matriz de datos tomados de sensores. Una foto de 5MP contiene casi 5 millones de píxeles procesados y guardados por el hardware. Como saben, se realiza en un solo disparo y la duración de un solo disparo es de unos pocos milisegundos.
Dado que un video se puede considerar como una serie de marcos de fotos, es posible que el hardware no sea tan rápido como lo fue en el procesamiento de marcos de fotos. Quiero decir, puede que no sea capaz de procesar esos cuadros de 5MP en 60 (o incluso 25) veces por segundo (Sí, la velocidad de cuadros). En otras palabras, si una cámara puede grabar un máximo de 1920x1080 (es decir, 2MP) de video a 60FPS, entonces el hardware es capaz de procesar 1920x1080x60 = 124.4 millones de píxeles en solo un segundo. Entonces, ese es el límite.
A tu última pregunta: no tengo idea de si existe una relación directa entre esos dos. Pero, como expliqué anteriormente, la limitación proviene del propio hardware.