Mish
Mish = x · tanh(softplus(x)) – eine glatte, selbst-regularisierende Aktivierungsfunktion, die in YOLOv4 und einigen CNNs eingesetzt wird.
Mish = x · tanh(softplus(x)) – eine glatte Aktivierung, die in YOLOv4 ReLU schlug, aber für LLMs zu rechenintensiv ist.
Erklärung
Mish kombiniert Softplus (log(1 + eˣ)) mit Tanh für eine unbegrenzte obere, begrenzte untere, glatte und nicht-monotone Funktion. Empirisch oft besser als ReLU und Swish in CNNs, aber rechenaufwändiger.
Relevanz für Marketing
Populär in der Computer-Vision-Community, besonders durch Adoption in YOLOv4/v5.
Entstehung & Geschichte
Diganta Misra (2019) führte Mish ein. YOLOv4 (Bochkovskiy et al., 2020) übernahm Mish als Standard-Aktivierung. In der LLM-Welt setzte sich jedoch SiLU/SwiGLU durch.
Abgrenzung & Vergleiche
Mish vs. SiLU/Swish
Swish = x·sigmoid(x); Mish = x·tanh(softplus(x)). Mish ist glatter und etwas teurer; Ergebnisse sind oft vergleichbar.