DETR
Ein Transformer-basiertes Modell für Object Detection, das Bounding Boxes als Set-Prediction ohne Anchor Boxes vorhersagt.
DETR brachte Transformer in die Objekterkennung – End-to-End ohne Anchor Boxes oder NMS, mit Set-Prediction via bipartite Matching.
Erklärung
DETR vereinfacht die Object-Detection-Pipeline drastisch: keine Anchor Boxes, kein NMS (Non-Maximum Suppression). Stattdessen nutzt es bipartite Matching und Transformer-Decoder.
Relevanz für Marketing
DETR zeigt, dass Transformer auch in Vision End-to-End-Lösungen liefern können – Grundlage für nachfolgende Modelle wie DINO, DAB-DETR und RT-DETR.
Beispiel
RT-DETR (Real-Time DETR) wird für Echtzeit-Objekterkennung in autonomen Systemen eingesetzt, mit Transformer-Genauigkeit bei YOLO-Geschwindigkeit.
Häufige Fallstricke
Langsame Konvergenz beim Training. Schwächen bei kleinen Objekten. Höherer Compute-Bedarf als YOLO.
Entstehung & Geschichte
Facebook AI Research veröffentlichte DETR Mai 2020. Es war das erste erfolgreiche Transformer-Modell für Object Detection. Deformable DETR (2021) löste Konvergenz-Probleme. RT-DETR (2023, Baidu) erreichte Echtzeit-Fähigkeit.
Abgrenzung & Vergleiche
DETR vs. YOLO
YOLO ist CNN-basiert und extrem schnell. DETR ist Transformer-basiert, genauer bei komplexen Szenen, aber langsamer.
DETR vs. Faster R-CNN
Faster R-CNN nutzt Region Proposals + NMS. DETR eliminiert beide durch Set-Prediction mit Hungarian Matching.