Tracking and motion prediction of vehicles in
Transcrição
Tracking and motion prediction of vehicles in
Tracking und Bewegungsvorhersage von Fahrzeugen in komplexen Innenstadtszenarien (Tracking and motion prediction of vehicles in complex urban traffic scenes) Autoren Julian Einhaus1,2, Christoph Hermes2, Markus Hahn1, Christian Wöhler1, Franz Kummert2 1 2 Daimler AG, Group Research and Advanced Engineering, P. O. Box 2360, D-89013 Ulm Applied Informatics, Faculty of Technology, Bielefeld University, Universitätsstr. 25, D-33615 Bielefeld Telefonnummern und E-Mail-Adressen J. Einhaus: C. Hermes: M. Hahn: C. Wöhler: F. Kummert: +49-731-505-2120 +49-731-505-4865 +49-731-505-2108 +49-731-505-2148 +49-521-106-2929 [email protected] [email protected] [email protected] [email protected] [email protected] Acknowledgements This work was carried out within the research initiative AKTIV-AS supported by the German Bundesministerium für Wirtschaft und Technologie (grant no. 19S6011A). 1 Abstract The detection and tracking of vehicles in urban traffic and the long-term prediction of their positions and motion states are indispensable skills of advanced driver assistance systems. Many object tracking systems rely on Kalman filters [1] or particle filters [2,3]. In such systems, motion models are typically restricted to rather simple approaches, such as constant curve radius and constant velocity or acceleration, which often turn out as inadequate for prediction intervals exceeding one second. In this contribution we describe an object tracking system which relies on a vehicle-based stereo camera. A sparse scene flow field is computed based on stereo and optical flow information extracted using computationally efficient feature-based techniques [4]. In a subsequent clustering stage, the scene flow field is segmented into object hypotheses using a graph-based clustering stage [5]. For each cluster a model is generated which is given by the histogram of the grey values in both camera images. The current object position is determined with the Mean-Shift algorithm [6,7,8] applied to the 3D point cloud. The 3D points are reprojected into the images and the corresponding grey values are used to weight the 3D points in the Mean-Shift scheme based on their relative frequency in the model histogram, which is thus interpreted as a probability of the 3D point to belong to the object. Given a series of measurements, i.e. the object trajectory up to the current time step, the object state at a specific point in time in the future is predicted based on a Bayesian framework in which the probability distribution of the motion hypotheses is represented by a set of samples (particles) which are propagated in time using a particle filter [9]. The likelihood to observe the measured trajectory, given the model trajectory, is obtained by the quaternion-based rotationally invariant longest common subsequence (QRLCS) metric [10]. The experimental evaluation of our system on complex real-world urban traffic scenes shows that it allows an early detection and robust tracking of vehicles (cars and bicycles) in the presence of cluttered background, partial occlusions, and even temporary full occlusions. Furthermore, we demonstrate that the long-term (2–3 seconds ahead) prediction behaviour of our particle filter framework is superior to that of the standard approach assuming constant acceleration and curve radius, especially regarding the predicted yaw angle and yaw rate. Fig. 1: Left: Typical object detection results. Right: Particle trajectories associated with vehicle 1 following a circular path (intensity denotes particle likelihood, current position is marked by a blue cross). [1] [2] Barth, A., Franke, U., 2008. Where will the oncoming vehicle be the next second? Proc. IEEE Intelligent Vehicles Symposium. Montemerlo, M., Whittaker, W., Thrun, S., 2002. Conditional particle filters for simultaneous mobile robot localization and peopletracking. Proc. Int. Conf. on Robotics and Automation. [3] Beuter, N., Swadzba, A., Schmidt, J., Sagerer, G., 2009. 3D-Szenenrekonstruktion in dynamischen Umgebungen. Proc. Oldenburger 3D-Tage. [4] Stein, F., 2004. Efficient Computation of Optical Flow Using the Census Transform. Proc. DAGM, pp. 79–86. [5] Bock, H. H., 1974. Automatische Klassifikation. Vandenhoeck & Ruprecht, Göttingen. [6] Fukunaga, K., Hostetler, L. D., 1975. The Estimation of the Gradient of a Density Function, with Applications in Pattern Recognition. IEEE Trans. on Information Theory 1, 32–40. [7] Bradski, G. R., 1998. Real time face and object tracking as a component of a perceptual user interface. Proc. 4th IEEE Workshop on Applications of Computer Visios, pp. 214–219. [8] Comaniciu, D., Meer, P., 2002. Mean shift: A robust approach toward feature space analysis. IEEE Trans. Pattern Analysis and Machine Intelligence 24(5), 603–619. [9] Black, M. J., Jepson, A. D., 1998. A Probabilistic Framework for Matching Temporal Trajectories: CONDENSATION-Based Recognition of Gestures and Expressions. Proc. Europ. Conf. on Computer Vision, pp. 909–924. [10] Hermes, C., Wöhler, C., Schenk, K., Kummert, F., 2009. Long-term Vehicle Motion Prediction. Proc. IEEE Intelligent Vehicles Symposium. 2 Tracking und Bewegungsvorhersage von Fahrzeugen in komplexen Innenstadtszenarien C. Hermes2, J. Einhaus1,2, M. Hahn1, C. Wöhler1, F. Kummert2 1 Daimler AG, Group Research & Advanced Engineering 2 Universität Bielefeld, AG Angewandte Informatik GR/PAP, 15.04.2010 20.11.2009 1 Überblick ● Einleitung / Motivation ● Verwendete Methoden ● Objektinitialisierung: Clustering ● Objektlokalisierung: Mean-Shift ● Bewegungsprädiktion ● Ergebnis ● Zusammenfassung Tracking und Bewegungsprädiktion C. Hermes / GR-PAP / 20.11.2009 2 Einleitung Motivation ● ● Kalmanfilter häufig problematisch beim Tracking dynamisch bewegter Objekte Ziel: Vorhersage von Fahrzeugposen im Straßenverkehr 1 – 2 s im voraus, geeignet für Warnung des Fahrers ● Spezielle Untersuchung: Kreisverkehr ● Tracking und Bewegungsprädiktion gleichzeitig ● Idee: Verknüpfung von 3D-Mean-Shift-Tracking und 2D-Trajektorienprädiktion Tracking und Bewegungsprädiktion C. Hermes / GR-PAP / 20.11.2009 3 Einleitung Herausforderungen ● ● Verrauschte 4D-Daten (3D Position + 1D Geschw.) Featurebasierter Fluss und Stereo Unterschiedliche Bewegungsformen: ● ● ● Hinterer Kreisverkehr → Großer Abstand zur Kamera (ca. 40 m) → Hoher Rauschanteil / viele Verdeckungen Objekte vor der Kamera entlang → Kurze Sichtbarkeit (~3–4 s) Kurvenfahrten → Hohe Dynamik, muss im Modell berücksichtigt werden Tracking und Bewegungsprädiktion C. Hermes / GR-PAP / 20.11.2009 4 Verwendete Methoden Stereokamera Initialisierung Clustering Clustering Feature-based Stereo + Optischer Fluss neues Objekt Hierarchische Prädiktion Bildbasierter Mean-Shift Fluss Standardprädiktion Trajektorien-Partikelfilter Tracking und Bewegungsprädiktion C. Hermes / GR-PAP / 20.11.2009 3D Mean-Shift 5 Verwendete Methoden Clustering ● ● Initialisierung neuer Objekte für die Tracking-Stufe Auswahlkriterium: Flussannotierte Stereopunkte → Keine Forminformation über Objekt notwendig Stereokamera Feature-based Stereo Optischer Fluss Hierarchische Prädiktion Fluss Partikelfilter Graphenbasiertes Clustering auf 4D-Punkten [Bock, 1974] ● Beispiel: Fahrzeug fährt in Szene ein C. Hermes / GR-PAP / 20.11.2009 Bildbasierter Mean-Shift Standardprädiktion ● Tracking und Bewegungsprädiktion Clustering Clustering 3D Mean-Shift 6 Verwendete Methoden Stereokamera Feature-based Stereo Optischer Fluss Mean-Shift: Grundlagen ● Iterative Maximumsschätzung für Punkteverteilungen [Comaniciu und Meer, 2002] Hierarchische Prädiktion Fluss ∥ ∥ ∑ ∥ ∥ ∑ xi g i=1 N g i=1 3D Mean-Shift 2 x−x i h x− x i h Bildbasierter Mean-Shift Standardprädiktion Partikelfilter N m h , G x = Clustering Clustering 2 −x [Bildmaterial: www.wisdom.weizmann.ac.il/~deniss/vision_spring04] Tracking und Bewegungsprädiktion C. Hermes / GR-PAP / 20.11.2009 7 Verwendete Methoden Mean-Shift Punktewolke zu „sparse“ für Dichteschätzung → Anwendung für Tracking: Zweistufiger Mean-Shift Stereokamera Clustering Clustering Feature-based Stereo Optischer Fluss Hierarchische Prädiktion Fluss Bildbasierter Mean-Shift Standardprädiktion Partikelfilter 3D Mean-Shift (1) Bildbasiert: ● ● ● Annahme: Objektdistanz ähnlich zum vorherigen Zeitschritt Gewichtung der Punkte mit zugehörigem Bildinhalt Rel. Häufigkeit für jeden 3D-Rasterpunkt (interpretiert als Wahrscheinlichkeit) (2) Tiefenanpassung: ● ● Initialisiert mit bildbasierten Mean-Shift-Ergebnissen Maximum der Punkteverteilung entspricht Objektposition Tracking und Bewegungsprädiktion C. Hermes / GR-PAP / 20.11.2009 8 Verwendete Methoden Stereokamera Feature-based Stereo Optischer Fluss Bewegungsprädiktion ● ● Vorhersage für nächsten Zeitschritt notwendig Gestaffelt: Je mehr Historie, desto besser Prädiktion (179) Clustering Clustering Hierarchische Prädiktion Fluss Bildbasierter Mean-Shift Standardprädiktion Partikelfilter (196) 3D Mean-Shift (219) Prädiktionen abhängig von Historienlänge: (1) Prädiktion mittels 1D-Fluss ( p ≤ 5 Zeitschritte ≡ 0.21 s) ● Gibt grobe Richtung entlang horizontaler Linie wieder (2) Kinematische Prädiktion ( 5 ≤ p ≤ 30 Zeitschritte → 0.21 ≤ p ≤ 1.26 s) ● konstante Beschleunigung, konstanter Lenkwinkel ● geschätzt mittels Regression aus Historie Tracking und Bewegungsprädiktion C. Hermes / GR-PAP / 20.11.2009 9 Verwendete Methoden Bewegungsprädiktion Prädiktionen abhängig von Länge der Historie: (3) Partikelfilter (p > 30 Zeitschritte → p > 1.26 s) ● ● ● Stereokamera Clustering Clustering Feature-based Stereo Optischer Fluss Hierarchische Prädiktion Fluss Bildbasierter Mean-Shift Standardprädiktion Partikelfilter 3D Mean-Shift Gespeicherte Bewegungsmuster (Trajektorien) an Historie anpassen → Translations- und rotationsinvariantes Maß Prädiktion ist einfacher Lookup in Trajektorie (sowohl nächster Zeitschritt als auch Langzeitprädiktion) Probabilistische Suche in Muster-DB mittels Partikelfilter [Hermes et al., 2009] PF Tracking und Bewegungsprädiktion C. Hermes / GR-PAP / 20.11.2009 10 Ergebnis Objektverfolgung Tracking und Bewegungsprädiktion C. Hermes / GR-PAP / 20.11.2009 11 Ergebnis Fehler der Prädiktion ● ● Tracking und Bewegungsprädiktion C. Hermes / GR-PAP / 20.11.2009 Prädiktion für 0.2 s – 1.5 s Vergleich der prädizierten Position mit „Quasi-Ground-Truth“ 12 Zusammenfassung ● ● ● Tracking und (Langzeit-)Prädiktion → Mean-Shift-Tracking + trajektorienbasierter Partikelfilter Verwendung von Bewegungsmustern: ● neue Bewegungsmuster einfach integrierbar ● Sensorrauschen wird mitgelernt ● prinzipiell unabhängig vom Sensortyp Ausblick ● Evaluierung mittels „echter“ Ground-Truth ● geeignet für Sensorfusion (Partikelgewicht) ● inkrementelle Erweiterung der Wissensbasis (aktives Lernen) Tracking und Bewegungsprädiktion C. Hermes / GR-PAP / 20.11.2009 13 Tracking und Bewegungsvorhersage von Fahrzeugen in komplexen Innenstadtszenarien C. Hermes2, J. Einhaus1,2, M. Hahn1, C. Wöhler1, F. Kummert2 1 Daimler AG, Group Research & Advanced Engineering 2 Universität Bielefeld, AG Angewandte Informatik GR/PAP, 15.04.2010 20.11.2009 14