Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Daten & Analytics

    Daten-Begriffe A-Z

    Die Sprache der Daten verstehen: Von Big Data über ETL bis hin zu Predictive Analytics – alle wichtigen Begriffe für datengetriebenes Marketing und Business Intelligence.

    Big Data
    Data Lakes
    ETL Prozesse
    Business Intelligence
    Predictive Analytics
    Data Governance
    161 Begriffe in Daten & Analytics

    D

    Dashboard

    Eine visuelle Oberfläche, die wichtige Metriken, Trends und Alerts zur Unterstützung der Entscheidungsfindung präsentiert.

    Data Drift

    Die Veränderung der statistischen Eigenschaften von Eingabedaten über die Zeit, die die Modellleistung beeinträchtigen kann.

    Data Governance

    Data Governance ist das Framework aus Policies, Rollen, Prozessen und Controls, das sicherstellt, dass Daten akkurat, sicher, compliant und nutzbar über eine Organisation sind.

    Data Labeling

    Prozess der Annotation von Daten mit Ground Truth für überwachtes Lernen.

    Data Lake

    Zentraler Speicher für große Mengen unstrukturierter und strukturierter Daten.

    Data Layout

    Die physische oder logische Anordnung von Daten im Speicher oder auf Datenträgern, die Zugriffsgeschwindigkeit, Cache-Effizienz und Verarbeitungsperformance beeinflusst.

    Data Mesh

    Dezentraler Ansatz zur Datenarchitektur mit domänenorientierten Daten-Produkten.

    Data Mining

    Der Prozess der Entdeckung von Mustern, Anomalien und Zusammenhängen in großen Datensätzen mithilfe statistischer und maschineller Lernmethoden.

    Data Warehouse

    Ein System, das für strukturierte Analyseabfragen über kuratierte, bereinigte Daten optimiert ist – oft mit starker Governance.

    Databricks

    Databricks ist eine Unified-Analytics-Plattform, die Data Engineering, Data Science und Machine Learning auf Apache Spark vereint.

    Datenanreicherung

    Das Hinzufügen zusätzlicher Attribute zu bestehenden Daten – über interne Joins oder externe Quellen.

    Datenherkunft

    Datenherkunft beschreibt, woher Daten kommen, wie sie sich durch Systeme bewegen und wie sie in Downstream-Datasets und Outputs transformiert werden.

    Datenkatalog

    Ein durchsuchbares Inventar der Datenbestände einer Organisation, einschließlich Metadaten, Eigentümerschaft und Dokumentation.

    Datenpipeline

    Eine Sequenz von Prozessen, die Daten von Quellen zu Zielen (Lake, Warehouse, Feature Store, Vector Index) bewegt und transformiert.

    Datenvisualisierung

    Die grafische Darstellung von Daten zur Kommunikation von Insights und Mustern.

    Datenvorverarbeitung

    Die Transformation von Rohdaten in eine für Modellierung oder Analyse geeignete Form (Bereinigung, Normalisierung, Kodierung).

    Datenwörterbuch

    Dokumentation, die die Bedeutung, das Format, erlaubte Werte und die Verwendung von Datenfeldern definiert.

    DBSCAN

    DBSCAN (Density-Based Spatial Clustering of Applications with Noise) ist ein Clustering-Algorithmus, der Cluster basierend auf der Dichte von Datenpunkten findet und Ausreißer automatisch identifiziert.

    Decision Support System

    Ein Decision Support System (DSS) hilft Menschen, bessere Entscheidungen zu treffen, indem es Daten, Modelle und Benutzeroberflächen kombiniert.

    Deduplizierung

    Deduplizierung ist das Identifizieren und Entfernen von doppelten (oder fast-doppelten) Elementen, um Redundanz zu reduzieren und Qualität zu verbessern.

    Demand Forecasting

    Vorhersage zukünftiger Nachfrage basierend auf historischen Daten und Faktoren.

    Differentielle Privatsphäre

    Ein mathematisches Framework, das formale Garantien bietet, dass individuelle Datenpunkte nicht aus Aggregaten oder Modellen abgeleitet werden können.

    Dimensionsreduktion

    Techniken zur Reduzierung der Anzahl von Features bei Erhaltung wichtiger Informationen.

    N

    NaN (Not a Number)

    NaN ist ein spezieller Floating-Point Wert, der "Not a Number" bedeutet, verwendet um undefinierte oder nicht repräsentierbare numerische Ergebnisse darzustellen (z.B. 0/0).

    Natural Experiment

    Ein Natural Experiment nutzt reale Ereignisse oder operationale Änderungen (nicht von Ihnen randomisiert), die zufällige Zuweisung approximieren und kausale Inferenz unter Annahmen ermöglichen.

    NDCG (Normalized Discounted Cumulative Gain)

    Eine Ranking-Metrik, die sowohl Relevanzgrade als auch Positionen im Ranking berücksichtigt – höher gerankte relevante Items werden stärker gewichtet.

    NDJSON (Newline-Delimited JSON)

    NDJSON ist ein Format, bei dem jede Zeile ein valides JSON Object ist—was es einfach macht zu streamen, appenden und Logs/Events at Scale zu verarbeiten.

    Negative Binomial Regression

    Negative Binomial Regression ist ein statistisches Modell für Count Data (z.B. Clicks, Conversions), das Overdispersion (Varianz > Mittelwert) behandelt, anders als Poisson Regression.

    Negative Control

    Eine Negative Control ist eine Variable, ein Ergebnis oder eine Testbedingung, die von einer Intervention nicht beeinflusst werden sollte—verwendet zur Erkennung von Bias, Confounding oder Measurement-Artefakten.

    NHST (Null Hypothesis Significance Testing)

    NHST ist das traditionelle statistische Test-Framework, bei dem Sie testen, ob beobachtete Daten unter einer Nullhypothese (oft "kein Effekt") unwahrscheinlich sind, typischerweise mit p-Werten.

    NMI (Normalized Mutual Information)

    NMI ist eine Metrik zum Vergleichen von Clustering-Zuweisungen, indem gemessen wird, wie viel Information ein Clustering mit einem anderen teilt, normalisiert für Skalierungsfreundlichkeit.

    Noise-to-Signal Ratio

    Noise-to-Signal Ratio misst, wie viel zufällige Variation (Noise) relativ zum bedeutungsvollen Pattern (Signal) existiert, das Sie detecten wollen.

    Non-Negative Matrix Factorization (NMF)

    NMF faktorisiert eine nicht-negative Matrix in zwei kleinere nicht-negative Matrizen, oft verwendet für interpretierbare topic-artige Dekompositionen.

    Non-Production Data Masking

    Non-Production Data Masking ist die Praxis des Anonymisierens, Tokenisierens oder Synthetisierens sensitiver Daten, bevor sie in Dev/Staging/Test Environments verwendet werden.

    Normal Form (Database)

    In Datenbanken beschreiben Normal Forms (1NF, 2NF, 3NF, BCNF) Normalisierungsgrade, die Redundanz reduzieren und Datenintegrität verbessern.

    Normalized Cost per Answer

    Normalized Cost per Answer sind die Kosten für die Generierung einer KI-Antwort, angepasst für Vergleichbarkeit (z.B. normalisiert nach Antwortlänge, Tokens, Difficulty Tier oder Traffic Segment).

    Normalized RMSE (NRMSE)

    NRMSE ist RMSE normalisiert durch einen Scale Factor (z.B. Range, Mean oder Standard Deviation), um Errors über Datasets vergleichbar zu machen.

    Null Value

    Ein Null Value repräsentiert fehlende oder unbekannte Daten (unterschiedlich von Zero, leerem String oder False).

    S

    Sampling

    Sampling ist die Auswahl einer Teilmenge von Daten (oder Ergebnissen) aus einer größeren Population/Prozess, um Eigenschaften zu schätzen, Kosten zu reduzieren oder Exploration zu ermöglichen.

    Schema

    Ein Schema definiert die Struktur, Organisation und Constraints von Daten – sei es in Datenbanken, APIs oder strukturierten Datenformaten.

    Schema-on-Read

    Schema-on-Read ist ein Datenmanagement-Ansatz, bei dem die Struktur der Daten erst bei der Abfrage angewendet wird, nicht beim Speichern.

    Segmentanalyse

    Segmentanalyse bricht Metriken nach aussagekräftigen Gruppen (Segmenten) auf wie Channel, Device, Region, Kundentier oder Intent.

    Sensitivitätsanalyse

    Sensitivitätsanalyse evaluiert, wie Änderungen in Inputs die Outputs beeinflussen, um Robustheit und Schlüsselfaktoren zu verstehen.

    Sentiment-Score

    Numerischer Wert, der die emotionale Polarität eines Textes quantifiziert.

    Session

    Zeitraum der Nutzerinteraktion mit einer Website oder App.

    Sessionization

    Sessionization gruppiert User-Events in Sessions, um Verhalten über Zeit zu analysieren (Page Flows, Such-Sequenzen, Conversions).

    SimHash

    SimHash ist eine Fingerprinting-Methode, die einen kompakten Hash erzeugt, bei dem ähnliche Dokumente dazu neigen, ähnliche Hashes zu haben (kleine Hamming-Distanz).

    Simpsons Paradoxon

    Simpsons Paradoxon ist, wenn ein Trend in mehreren Gruppen erscheint, sich aber umkehrt oder verschwindet, wenn die Gruppen kombiniert werden, aufgrund von Konfundierung und Aggregation.

    Snorkel

    Snorkel ist ein Framework für programmatisches Data Labeling, das Labeling-Funktionen statt manueller Annotation verwendet, um große Trainingsdatensätze effizient zu erstellen.

    Snowflake

    Snowflake ist eine cloudnative Data-Warehouse-Plattform, die Speicher und Compute trennt und skalierbare Datenanalyse mit SQL ermöglicht.

    Statistische Signifikanz (Statistical Significance)

    Statistische Signifikanz beschreibt die Wahrscheinlichkeit, dass ein beobachteter Effekt nicht durch Zufall entstanden ist — gemessen über den p-Wert gegenüber einem festgelegten Schwellenwert (meist 0,05).

    Streaming Data

    Kontinuierlicher Datenfluss, der in Echtzeit verarbeitet wird.

    Szenario-Analyse

    Szenario-Analyse evaluiert Outcomes unter einer Menge kohärenter, plausibler zukünftiger Bedingungen (Szenarien), anstatt eine Variable nach der anderen zu ändern.

    V

    Validation Set

    Ein Validation Set ist ein zurückgehaltener Datensatz, der während der Modellentwicklung verwendet wird, um Hyperparameter zu tunen und Modellversionen auszuwählen, ohne das finale Testset zu berühren.

    Varianz

    Varianz ist der Grad, zu dem die Leistung eines Modells über verschiedene Datensätze/Samples variiert; hohe Varianz deutet oft auf Sensitivität gegenüber Trainingsdaten hin (Overfitting-Risiko).

    Vector Database

    Eine Vektor-Datenbank speichert Embeddings und unterstützt schnelle Ähnlichkeitssuche (Nearest Neighbors), oft mit Metadaten-Filterung und Indexierung für Skalierung.

    Vector Embedding

    Ein Vector Embedding ist eine numerische Repräsentation (Array von Floats) von Text, Bildern oder anderen Daten, die semantische Bedeutung in einem hochdimensionalen Raum kodiert.

    Vector Index

    Ein Vector Index ist die Datenstruktur/der Algorithmus, der verwendet wird, um Nearest-Neighbor-Suche über Embeddings im großen Maßstab zu beschleunigen.

    Vector Quantization

    Vector Quantization (VQ) komprimiert kontinuierliche Vektoren, indem sie auf eine endliche Menge repräsentativer Vektoren (ein Codebook) abgebildet werden.

    Vector Similarity

    Vector Similarity ist ein Maß dafür, wie nah zwei Embeddings sind (üblicherweise Cosine Similarity oder Dot Product).

    Vector Store

    Ein Vector Store ist die Storage-Schicht (Datenbank oder Service), die Embeddings plus Metadaten für Retrieval und Ähnlichkeitssuche hält.

    Vector Store Hygiene

    Vector Store Hygiene ist die operationelle Disziplin, einen Vector Store akkurat, sicher, performant und aktuell zu halten (Dedupe, Versionierung, ACL-Korrektheit, Drift-Monitoring, Purge-Workflows).

    Vektorsuche

    Vektorsuche ruft Items nach Ähnlichkeit in einem Embedding-Raum ab, anstatt exakter Keyword-Matches.

    Verteilungsverschiebung

    Eine Diskrepanz zwischen der Datenverteilung im Training und der Verteilung im Deployment.

    Z

    Z-Order Curve

    Eine Z-Order Curve (Morton Order) ist eine raumfüllende Kurve, die multidimensionale Daten in eine eindimensionale Ordnung abbildet und dabei Lokalität bewahrt.

    Z-Ordering

    Z-Ordering ist die Praxis, gespeicherte Daten physisch mit Z-Order-Curves zu organisieren, sodass verwandte Werte auf der Disk kolokiert sind.

    Z-Score

    Ein Z-Score ist die Anzahl der Standardabweichungen, die ein Datenpunkt vom Mittelwert entfernt ist.

    Z-Test

    Ein Z-Test ist ein statistischer Hypothesentest, um zu bestimmen, ob ein Stichproben-Mittelwert von einem bekannten Populations-Mittelwert abweicht (oder ob zwei Mittelwerte unterschiedlich sind) unter bestimmten Annahmen.

    Zeitreihe

    Sequenz von Datenpunkten, die in zeitlicher Reihenfolge geordnet sind.

    Zeitreihenanalyse

    Analyse von Datenpunkten, die über Zeit gesammelt wurden, um Muster zu erkennen.

    Zero-ETL

    Zero-ETL bezieht sich auf Architekturen, die traditionelle ETL-Pipelines minimieren oder eliminieren, indem sie Near-Direct-Data-Access/Replication zwischen Systemen mit niedrigem operationellem Overhead ermöglichen.

    Zero-Party Data

    Zero-Party Data sind Daten, die ein Kunde absichtlich und proaktiv mit einer Marke teilt (Präferenzen, Absichten, Ziele), anstatt inferiert oder getrackt zu werden.

    Zettabyte

    Ein Zettabyte (ZB) ist eine Dateneinheit gleich 10²¹ Bytes.

    Zipf's Law

    Zipf's Law beschreibt, wie in vielen natürlichen Datensätzen (Sprache, Queries) einige wenige Items extrem häufig sind, während die meisten selten sind (Long-Tail-Verteilung).

    Begriff nicht gefunden?

    Durchsuchen Sie das gesamte Glossar mit über 1407 Begriffen aus allen Kategorien.

    Gesamtes Glossar ansehen
    👋Fragen? Chatte mit uns!