Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Daten & Analytics

    Daten-Begriffe A-Z

    Die Sprache der Daten verstehen: Von Big Data über ETL bis hin zu Predictive Analytics – alle wichtigen Begriffe für datengetriebenes Marketing und Business Intelligence.

    Big Data
    Data Lakes
    ETL Prozesse
    Business Intelligence
    Predictive Analytics
    Data Governance
    193 Begriffe in Daten & Analytics

    D

    Dashboard

    Eine visuelle Oberfläche, die wichtige Metriken, Trends und Alerts zur Unterstützung der Entscheidungsfindung präsentiert.

    Data Clean Room

    Eine sichere Umgebung, in der mehrere Parteien ihre Daten für gemeinsame Analysen zusammenführen können, ohne Rohdaten zu teilen.

    Data Drift

    Die Veränderung der statistischen Eigenschaften von Eingabedaten über die Zeit, die die Modellleistung beeinträchtigen kann.

    Data Governance

    Das Framework für Policies, Prozesse und Verantwortlichkeiten zur Verwaltung von Datenassets im Unternehmen.

    Data Labeling

    Prozess der Annotation von Daten mit Ground Truth für überwachtes Lernen.

    Data Lake

    Zentraler Speicher für große Mengen unstrukturierter und strukturierter Daten.

    Data Layout

    Die physische oder logische Anordnung von Daten im Speicher oder auf Datenträgern, die Zugriffsgeschwindigkeit, Cache-Effizienz und Verarbeitungsperformance beeinflusst.

    Data Mesh

    Dezentraler Ansatz zur Datenarchitektur mit domänenorientierten Daten-Produkten.

    Data Mining

    Der Prozess der Entdeckung von Mustern, Anomalien und Zusammenhängen in großen Datensätzen mithilfe statistischer und maschineller Lernmethoden.

    Data Processing Agreement (DPA)

    Ein rechtlich bindender Vertrag zwischen Datenverantwortlichem und Auftragsverarbeiter, der die Bedingungen für die Verarbeitung personenbezogener Daten gemäß DSGVO regelt.

    Data Validation (ML)

    Automatisierte Prüfung von Datenqualität, Schema-Konformität und statistischen Eigenschaften in ML-Pipelines.

    Data Warehouse

    Ein System, das für strukturierte Analyseabfragen über kuratierte, bereinigte Daten optimiert ist – oft mit starker Governance.

    Databricks

    Databricks ist eine Unified-Analytics-Plattform, die Data Engineering, Data Science und Machine Learning auf Apache Spark vereint.

    Datenanreicherung

    Das Hinzufügen zusätzlicher Attribute zu bestehenden Daten – über interne Joins oder externe Quellen.

    Datenherkunft

    Datenherkunft beschreibt, woher Daten kommen, wie sie sich durch Systeme bewegen und wie sie in Downstream-Datasets und Outputs transformiert werden.

    Datenkatalog

    Ein durchsuchbares Inventar der Datenbestände einer Organisation, einschließlich Metadaten, Eigentümerschaft und Dokumentation.

    Datenpipeline

    Eine Sequenz von Prozessen, die Daten von Quellen zu Zielen (Lake, Warehouse, Feature Store, Vector Index) bewegt und transformiert.

    Datenvisualisierung

    Die grafische Darstellung von Daten zur Kommunikation von Insights und Mustern.

    Datenvorverarbeitung

    Die Transformation von Rohdaten in eine für Modellierung oder Analyse geeignete Form (Bereinigung, Normalisierung, Kodierung).

    Datenwörterbuch

    Dokumentation, die die Bedeutung, das Format, erlaubte Werte und die Verwendung von Datenfeldern definiert.

    DBSCAN

    DBSCAN (Density-Based Spatial Clustering of Applications with Noise) ist ein Clustering-Algorithmus, der Cluster basierend auf der Dichte von Datenpunkten findet und Ausreißer automatisch identifiziert.

    Decision Support System

    Ein Decision Support System (DSS) hilft Menschen, bessere Entscheidungen zu treffen, indem es Daten, Modelle und Benutzeroberflächen kombiniert.

    Deduplizierung

    Deduplizierung ist das Identifizieren und Entfernen von doppelten (oder fast-doppelten) Elementen, um Redundanz zu reduzieren und Qualität zu verbessern.

    Demand Forecasting

    Vorhersage zukünftiger Nachfrage basierend auf historischen Daten und Faktoren.

    Difference-in-Differences

    Quasi-experimentelle Methode, die kausale Effekte schätzt, indem sie Veränderungen über die Zeit zwischen Treatment- und Kontrollgruppe vergleicht.

    Differential Privacy

    Eine mathematisch rigorose Definition von Privatsphäre, die garantiert, dass die Teilnahme einer Einzelperson an einem Datensatz statistisch nicht nachweisbar ist – selbst gegen Angreifer mit beliebigem Hintergrundwissen.

    Dimensionsreduktion

    Techniken zur Reduzierung der Anzahl von Features bei Erhaltung wichtiger Informationen.

    Double Machine Learning

    Kausale Inferenzmethode, die ML-Modelle nutzt, um Confounding flexibel zu kontrollieren und dabei valide statistische Inferenz zu ermöglichen.

    DSGVO

    Die EU-Datenschutz-Grundverordnung (seit 2018), die einheitliche Regeln für die Verarbeitung personenbezogener Daten durch Unternehmen festlegt und betroffenen Personen umfassende Rechte einräumt.

    N

    NaN (Not a Number)

    NaN ist ein spezieller Floating-Point Wert, der "Not a Number" bedeutet, verwendet um undefinierte oder nicht repräsentierbare numerische Ergebnisse darzustellen (z.B. 0/0).

    Natural Experiment

    Ein Natural Experiment nutzt reale Ereignisse oder operationale Änderungen (nicht von Ihnen randomisiert), die zufällige Zuweisung approximieren und kausale Inferenz unter Annahmen ermöglichen.

    NDCG (Normalized Discounted Cumulative Gain)

    Eine Ranking-Metrik, die sowohl Relevanzgrade als auch Positionen im Ranking berücksichtigt – höher gerankte relevante Items werden stärker gewichtet.

    NDJSON (Newline-Delimited JSON)

    NDJSON ist ein Format, bei dem jede Zeile ein valides JSON Object ist—was es einfach macht zu streamen, appenden und Logs/Events at Scale zu verarbeiten.

    Negative Binomial Regression

    Negative Binomial Regression ist ein statistisches Modell für Count Data (z.B. Clicks, Conversions), das Overdispersion (Varianz > Mittelwert) behandelt, anders als Poisson Regression.

    Negative Control

    Eine Negative Control ist eine Variable, ein Ergebnis oder eine Testbedingung, die von einer Intervention nicht beeinflusst werden sollte—verwendet zur Erkennung von Bias, Confounding oder Measurement-Artefakten.

    NHST (Null Hypothesis Significance Testing)

    NHST ist das traditionelle statistische Test-Framework, bei dem Sie testen, ob beobachtete Daten unter einer Nullhypothese (oft "kein Effekt") unwahrscheinlich sind, typischerweise mit p-Werten.

    NMI (Normalized Mutual Information)

    NMI ist eine Metrik zum Vergleichen von Clustering-Zuweisungen, indem gemessen wird, wie viel Information ein Clustering mit einem anderen teilt, normalisiert für Skalierungsfreundlichkeit.

    Noise-to-Signal Ratio

    Noise-to-Signal Ratio misst, wie viel zufällige Variation (Noise) relativ zum bedeutungsvollen Pattern (Signal) existiert, das Sie detecten wollen.

    Non-Negative Matrix Factorization (NMF)

    NMF faktorisiert eine nicht-negative Matrix in zwei kleinere nicht-negative Matrizen, oft verwendet für interpretierbare topic-artige Dekompositionen.

    Non-Production Data Masking

    Non-Production Data Masking ist die Praxis des Anonymisierens, Tokenisierens oder Synthetisierens sensitiver Daten, bevor sie in Dev/Staging/Test Environments verwendet werden.

    Normal Form (Database)

    In Datenbanken beschreiben Normal Forms (1NF, 2NF, 3NF, BCNF) Normalisierungsgrade, die Redundanz reduzieren und Datenintegrität verbessern.

    Normalized Cost per Answer

    Normalized Cost per Answer sind die Kosten für die Generierung einer KI-Antwort, angepasst für Vergleichbarkeit (z.B. normalisiert nach Antwortlänge, Tokens, Difficulty Tier oder Traffic Segment).

    Normalized RMSE (NRMSE)

    NRMSE ist RMSE normalisiert durch einen Scale Factor (z.B. Range, Mean oder Standard Deviation), um Errors über Datasets vergleichbar zu machen.

    Nowcasting

    Prognose des aktuellen oder unmittelbar bevorstehenden Zustands unter Nutzung hochfrequenter Echtzeit-Daten.

    Null Value

    Ein Null Value repräsentiert fehlende oder unbekannte Daten (unterschiedlich von Zero, leerem String oder False).

    P

    p-Hacking

    Manipulation von Analyse-Entscheidungen (Stopping Rules, Segmentierung, Metriken, Ausschlüsse), um statistisch signifikante Ergebnisse zu erhalten.

    p-Wert

    Die Wahrscheinlichkeit, Ergebnisse mindestens so extrem wie beobachtet zu sehen, wenn die Nullhypothese wahr wäre.

    PII (Personally Identifiable Information)

    Informationen, die eine Person direkt oder indirekt identifizieren können (z.B. Name, E-Mail, Telefonnummer, Ausweis-IDs).

    Power-Analyse

    Berechnung der notwendigen Stichprobengröße, um einen Effekt bestimmter Größe mit gewünschter Wahrscheinlichkeit (Power) zu entdecken.

    Präzision

    Der Anteil der korrekt als positiv klassifizierten Fälle an allen als positiv klassifizierten Fällen.

    Precision und Recall

    Zwei komplementäre Metriken zur Bewertung von Klassifikationsmodellen bei unbalancierten Daten.

    Precision@k

    Misst, wie viele der Top-k abgerufenen Items relevant sind (relevante Items in Top-k ÷ k).

    Privacy Budget

    Ein quantitatives Maß (Epsilon, ε) für den gesamten Datenschutzverlust, der durch wiederholte Abfragen auf privacy-geschützten Daten akkumuliert wird.

    Prophet

    Ein von Meta entwickeltes Open-Source-Forecasting-Tool, das automatisch Trend, Saisonalität und Feiertags-Effekte modelliert.

    Provenienz

    Provenienz sind Metadaten, die den Ursprung, die Historie und den Transformationspfad von Daten oder Content beschreiben – woher es kam, wie es sich geändert hat und wer/was es geändert hat.

    Pseudonymisierung

    Ersetzt Identifikatoren durch Pseudonyme, sodass Daten nicht direkt einer Person zugeordnet werden können ohne zusätzliche separate Informationen.

    S

    Saisonalität

    Regelmäßig wiederkehrende Muster in Zeitreihen, die sich in festen Intervallen wiederholen.

    Sampling

    Sampling ist die Auswahl einer Teilmenge von Daten (oder Ergebnissen) aus einer größeren Population/Prozess, um Eigenschaften zu schätzen, Kosten zu reduzieren oder Exploration zu ermöglichen.

    Schema

    Ein Schema definiert die Struktur, Organisation und Constraints von Daten – sei es in Datenbanken, APIs oder strukturierten Datenformaten.

    Schema-on-Read

    Schema-on-Read ist ein Datenmanagement-Ansatz, bei dem die Struktur der Daten erst bei der Abfrage angewendet wird, nicht beim Speichern.

    Segmentanalyse

    Segmentanalyse bricht Metriken nach aussagekräftigen Gruppen (Segmenten) auf wie Channel, Device, Region, Kundentier oder Intent.

    Sensitivitätsanalyse

    Sensitivitätsanalyse evaluiert, wie Änderungen in Inputs die Outputs beeinflussen, um Robustheit und Schlüsselfaktoren zu verstehen.

    Sentiment-Score

    Numerischer Wert, der die emotionale Polarität eines Textes quantifiziert.

    Session

    Zeitraum der Nutzerinteraktion mit einer Website oder App.

    Sessionization

    Sessionization gruppiert User-Events in Sessions, um Verhalten über Zeit zu analysieren (Page Flows, Such-Sequenzen, Conversions).

    SimHash

    SimHash ist eine Fingerprinting-Methode, die einen kompakten Hash erzeugt, bei dem ähnliche Dokumente dazu neigen, ähnliche Hashes zu haben (kleine Hamming-Distanz).

    Simpsons Paradoxon

    Simpsons Paradoxon ist, wenn ein Trend in mehreren Gruppen erscheint, sich aber umkehrt oder verschwindet, wenn die Gruppen kombiniert werden, aufgrund von Konfundierung und Aggregation.

    Snorkel

    Snorkel ist ein Framework für programmatisches Data Labeling, das Labeling-Funktionen statt manueller Annotation verwendet, um große Trainingsdatensätze effizient zu erstellen.

    Snowflake

    Snowflake ist eine cloudnative Data-Warehouse-Plattform, die Speicher und Compute trennt und skalierbare Datenanalyse mit SQL ermöglicht.

    Spezifität

    Der Anteil der korrekt als negativ klassifizierten Fälle an allen tatsächlich negativen Fällen.

    Stationarität

    Eine Zeitreihe ist stationär, wenn ihre statistischen Eigenschaften über die Zeit konstant bleiben.

    Statistische Signifikanz (Statistical Significance)

    Statistische Signifikanz beschreibt die Wahrscheinlichkeit, dass ein beobachteter Effekt nicht durch Zufall entstanden ist — gemessen über den p-Wert gegenüber einem festgelegten Schwellenwert (meist 0,05).

    Streaming Data

    Kontinuierlicher Datenfluss, der in Echtzeit verarbeitet wird.

    Synthetic Data

    Künstlich generierte Daten, die statistische Eigenschaften realer Daten nachbilden – verwendet für Training, Testing und Privacy-Schutz, wenn echte Daten knapp, sensibel oder teuer sind.

    Szenario-Analyse

    Szenario-Analyse evaluiert Outcomes unter einer Menge kohärenter, plausibler zukünftiger Bedingungen (Szenarien), anstatt eine Variable nach der anderen zu ändern.

    V

    Validation Set

    Ein Validation Set ist ein zurückgehaltener Datensatz, der während der Modellentwicklung verwendet wird, um Hyperparameter zu tunen und Modellversionen auszuwählen, ohne das finale Testset zu berühren.

    Varianz

    Varianz ist der Grad, zu dem die Leistung eines Modells über verschiedene Datensätze/Samples variiert; hohe Varianz deutet oft auf Sensitivität gegenüber Trainingsdaten hin (Overfitting-Risiko).

    Vector Database

    Eine Vektor-Datenbank speichert Embeddings und unterstützt schnelle Ähnlichkeitssuche (Nearest Neighbors), oft mit Metadaten-Filterung und Indexierung für Skalierung.

    Vector Embedding

    Ein Vector Embedding ist eine numerische Repräsentation (Array von Floats) von Text, Bildern oder anderen Daten, die semantische Bedeutung in einem hochdimensionalen Raum kodiert.

    Vector Index

    Ein Vector Index ist die Datenstruktur/der Algorithmus, der verwendet wird, um Nearest-Neighbor-Suche über Embeddings im großen Maßstab zu beschleunigen.

    Vector Quantization

    Vector Quantization (VQ) komprimiert kontinuierliche Vektoren, indem sie auf eine endliche Menge repräsentativer Vektoren (ein Codebook) abgebildet werden.

    Vector Similarity

    Vector Similarity ist ein Maß dafür, wie nah zwei Embeddings sind (üblicherweise Cosine Similarity oder Dot Product).

    Vector Store

    Ein Vector Store ist die Storage-Schicht (Datenbank oder Service), die Embeddings plus Metadaten für Retrieval und Ähnlichkeitssuche hält.

    Vector Store Hygiene

    Vector Store Hygiene ist die operationelle Disziplin, einen Vector Store akkurat, sicher, performant und aktuell zu halten (Dedupe, Versionierung, ACL-Korrektheit, Drift-Monitoring, Purge-Workflows).

    Vektorsuche

    Vektorsuche ruft Items nach Ähnlichkeit in einem Embedding-Raum ab, anstatt exakter Keyword-Matches.

    Z

    Z-Order Curve

    Eine Z-Order Curve (Morton Order) ist eine raumfüllende Kurve, die multidimensionale Daten in eine eindimensionale Ordnung abbildet und dabei Lokalität bewahrt.

    Z-Ordering

    Z-Ordering ist die Praxis, gespeicherte Daten physisch mit Z-Order-Curves zu organisieren, sodass verwandte Werte auf der Disk kolokiert sind.

    Z-Score

    Ein Z-Score ist die Anzahl der Standardabweichungen, die ein Datenpunkt vom Mittelwert entfernt ist.

    Z-Test

    Ein Z-Test ist ein statistischer Hypothesentest, um zu bestimmen, ob ein Stichproben-Mittelwert von einem bekannten Populations-Mittelwert abweicht (oder ob zwei Mittelwerte unterschiedlich sind) unter bestimmten Annahmen.

    Zeitreihe

    Sequenz von Datenpunkten, die in zeitlicher Reihenfolge geordnet sind.

    Zeitreihenanalyse

    Analyse von Datenpunkten, die über Zeit gesammelt wurden, um Muster zu erkennen.

    Zero-ETL

    Zero-ETL bezieht sich auf Architekturen, die traditionelle ETL-Pipelines minimieren oder eliminieren, indem sie Near-Direct-Data-Access/Replication zwischen Systemen mit niedrigem operationellem Overhead ermöglichen.

    Zero-Party Data

    Zero-Party Data sind Daten, die ein Kunde absichtlich und proaktiv mit einer Marke teilt (Präferenzen, Absichten, Ziele), anstatt inferiert oder getrackt zu werden.

    Zettabyte

    Ein Zettabyte (ZB) ist eine Dateneinheit gleich 10²¹ Bytes.

    Zipf's Law

    Zipf's Law beschreibt, wie in vielen natürlichen Datensätzen (Sprache, Queries) einige wenige Items extrem häufig sind, während die meisten selten sind (Long-Tail-Verteilung).

    Begriff nicht gefunden?

    Durchsuchen Sie das gesamte Glossar mit über 1922 Begriffen aus allen Kategorien.

    Gesamtes Glossar ansehen
    👋Fragen? Chatte mit uns!