Expected Calibration Error (ECE)
Die Standard-Metrik zur Messung der Kalibrierungsqualität eines Klassifikators – der gewichtete Durchschnitt der Differenz zwischen Konfidenz und Accuracy über Bins.
ECE misst, wie weit Modell-Konfidenzwerte von tatsächlichen Häufigkeiten abweichen – die Standard-Metrik für Kalibrierungsqualität.
Erklärung
ECE teilt Vorhersagen in Konfidenz-Bins (z.B. 0-10%, 10-20%, ...) und misst für jeden Bin die Differenz zwischen durchschnittlicher Konfidenz und tatsächlicher Accuracy. Perfekte Kalibrierung = ECE von 0.
Relevanz für Marketing
ECE ist die Standard-Metrik für Model-Kalibrierung in jedem ML-Deployment – von Lead-Scoring bis Churn-Prediction.
Beispiel
Ein Modell mit ECE=0.15 liegt im Durchschnitt 15 Prozentpunkte neben der tatsächlichen Häufigkeit – es braucht Recalibration.
Häufige Fallstricke
ECE ist sensitiv gegenüber der Bin-Anzahl. Adaptive ECE oder KDE-basierte Varianten sind robuster. ECE allein reicht nicht – auch Reliability Diagrams prüfen.
Entstehung & Geschichte
Naeini et al. (2015) formalisierten ECE und schlugen binning-basierte Kalibrierung vor. Guo et al. (2017) zeigten systematische Fehlkalibrierung moderner DNNs mittels ECE. Adaptive Varianten folgten ab 2019.
Abgrenzung & Vergleiche
Expected Calibration Error (ECE) vs. Brier Score
Brier Score misst Gesamtqualität (Accuracy + Kalibrierung kombiniert); ECE misst ausschließlich Kalibrierung.