Tiefenschätzung
Die Vorhersage von Tiefenwerten (Entfernungen) für jeden Pixel eines 2D-Bildes zur Erzeugung einer 3D-Tiefenkarte.
Depth Estimation sagt Tiefenwerte für jedes Pixel vorher – ermöglicht 3D-Verständnis aus 2D-Bildern für AR, Robotik und autonomes Fahren.
Erklärung
Monokulare Depth Estimation nutzt ein einziges Bild (kein Stereo). Modelle wie Depth Anything (2024) und MiDaS liefern relative oder metrische Tiefe.
Relevanz für Marketing
Depth Estimation ermöglicht 3D-Rekonstruktion, AR-Effekte, autonomes Fahren und Robotik aus gewöhnlichen Kameras.
Beispiel
Ein Smartphone nutzt Depth Estimation für Portrait-Modus-Bokeh ohne dedizierte Tiefensensor-Hardware.
Häufige Fallstricke
Monokulare Tiefe ist inherent mehrdeutig (Skalierung unbekannt). Schwächen bei reflektierenden und transparenten Oberflächen.
Entstehung & Geschichte
Saxena et al. (2006) zeigten erste ML-basierte monokulare Tiefenschätzung. MiDaS (Intel, 2020) brachte robuste Cross-Dataset-Generalisierung. Depth Anything (2024, TikTok/ByteDance) erreichte State-of-the-Art mit Foundation-Model-Ansatz.
Abgrenzung & Vergleiche
Tiefenschätzung vs. Stereo Vision
Stereo Vision nutzt zwei Kameras für geometrische Tiefe. Monokulare Depth Estimation nutzt nur ein Bild und lernt Tiefe aus Daten.
Tiefenschätzung vs. LiDAR
LiDAR misst Tiefe aktiv mit Laser (exakt). Depth Estimation schätzt passiv aus Bildern (günstiger, weniger genau).