Ziel dieser Arbeit war es, eine Architektur aufzubauen, welche sowohl die Lokalisierung als auch die Erkennung von Objekten in Bildern ermöglicht und dabei effizient skaliert. Inspiriert durch die Art und Weise der menschlichen Wahrnehmung, wird ein Modell konzipiert, welches mittels Aufmerksamkeit selektiv Bildregionen fokussiert und diese sequentiell verarbeitet. Konzepte aus dem überwachten und bestärkenden Lernen werden kombiniert, um ein globales Training des Modells zu ermöglichen. Die Arbeit endet mit Experimenten zum Klassifizieren von Ziffern und Lokalisieren von KFZ-Kennzeichen.