Ya que eres nuevo en la visión por computadora, sugeriría el siguiente algoritmo basado en la segmentación del color. Será bastante rápido utilizando OpenCV en Python en una Raspberry Pi.
1) Lee el video en vivo un cuadro a la vez (puedes encontrar muchos tutoriales de OpenCV donde las personas hacen esto)
2) Clasifica los píxeles como amarillo mantecoso o no. La forma más fácil es probablemente convertir la imagen a un espacio de color HSV, y usar un umbral simple en la H y la S. (De esta manera, obtendrá una pequeña resistencia a los cambios en la iluminación)
3) Encuentra la mediana xey de los píxeles amarillos mantecosos
4) Convierta la x en un ángulo, y haga que su robot gire allí. (Básicamente, simplemente establezca los ángulos izquierdo y derecho de la cámara y codifique con los datos).
También hay muchas otras formas posibles, como el algoritmo SURF para reconocer un plato de mantequilla específico, o un código QR en el plato de mantequilla. Pero lo anterior es probablemente el mejor lugar para comenzar.
¡Te recomiendo que solo instales OpenCV en tu PC, tomes una foto de tu barra de mantequilla y pruebes todo! (Por cierto, StackOverflow tiene una etiqueta de "visión de computadora"; probablemente quieras publicar más preguntas allí).