El problema
Estoy tratando de estimar la postura en 3D de una persona que se observa con una sola cámara y 5 IMU desgastadas (extremidades de las extremidades y parte superior de la espalda). Los marcos de la cámara se convierten en vectores de características basados en la forma, y cada IMU proporciona representaciones de cuaternión 4D de su orientación.
He recuperado la pose 3D usando cada modalidad al aprender un mapeo desde el espacio de la característica de entrada al espacio de la pose de salida. Ahora deseo obtener mejores resultados combinando ambas modalidades de alguna manera a través de la fusión de sensores.
He intentado agregar los vectores de características de cada modalidad y también usando un promedio ponderado de sus salidas. Estos son enfoques muy simples, y solo resultaron en mejoras muy pequeñas en promedio.
Pregunta
¿Qué otros enfoques puedo intentar combinar estos dos orígenes de datos incompatibles?
¿Hay algún preprocesamiento de las funciones que se debe hacer?
Nota: Mi preferencia es continuar usando un enfoque basado en el aprendizaje si es posible. (es decir, no quiero modelar explícitamente la física / cinemática / etc)