Loss Landscape
Die mehrdimensionale Oberfläche, die den Loss als Funktion der Modellparameter darstellt – der "Berg", den Gradient Descent hinabsteigt.
Die Loss Landscape zeigt den Verlust als Funktion aller Parameter – flache Minima generalisieren besser, scharfe sind fragiler. SGD findet eher flache Minima als Adam.
Erklärung
Loss Landscapes moderner Netze haben viele lokale Minima, Sattelpunkte und flache Regionen. Flachere Minima generalisieren oft besser.
Relevanz für Marketing
Das Verständnis der Loss Landscape erklärt, warum bestimmte Optimizer, Learning Rates und Batch Sizes besser funktionieren.
Häufige Fallstricke
Visualisierungen sind 2D-Projektionen hochdimensionaler Räume. Flachheit ≠ immer bessere Generalisierung. Lokale Minima weniger problematisch als oft angenommen.
Entstehung & Geschichte
Li et al. (2018) entwickelten Visualisierungsmethoden für Loss Landscapes tiefer Netze ("Visualizing the Loss Landscape of Neural Nets"). Das Paper zeigte, dass Skip Connections die Landscape glätten und Training erleichtern.
Abgrenzung & Vergleiche
Loss Landscape vs. Loss Function
Loss Function definiert, was gemessen wird (z.B. Cross-Entropy); Loss Landscape zeigt, wie sich dieser Wert über alle möglichen Parameterkonfigurationen verhält.
Loss Landscape vs. Gradient Descent
Die Loss Landscape ist die Landkarte; Gradient Descent ist der Wanderer, der den Weg bergab sucht.