Daten-Begriffe A-Z
Die Sprache der Daten verstehen: Von Big Data über ETL bis hin zu Predictive Analytics – alle wichtigen Begriffe für datengetriebenes Marketing und Business Intelligence.
A
B
Batch-Verarbeitung
Verarbeitung großer Datenmengen in gesammelten Blöcken statt in Echtzeit.
Benchmark
Ein Referenzpunkt oder Standard, gegen den Performance gemessen und verglichen wird.
Business Intelligence
Business Intelligence (BI) ist die Praxis und Tooling zur Transformation von Daten in Dashboards, Reports und Analysen, die Geschäftsentscheidungen unterstützen.
C
Chain of Custody
Chain of Custody ist der dokumentierte Trail, wie ein Artefakt (Daten, Evidenz, Content) gesammelt, gehandhabt, gespeichert und zugegriffen wurde – um Integrität und Accountability sicherzustellen.
Clickstream-Daten
Ein zeitlich geordneter Datensatz von Benutzerinteraktionen (Klicks, Seitenaufrufe, Events) auf digitalen Properties wie Websites und Apps.
Cohen's Kappa
Eine Statistik zur Messung der Inter-Rater-Reliabilität für kategoriale Bewertungen, die für zufällige Übereinstimmung korrigiert.
Content Fingerprinting
Content Fingerprinting erstellt eine kompakte Signatur (Fingerprint) von Content, um Identifizierung, Deduplizierung, Similarity-Detection oder Provenance-Tracking zu ermöglichen.
Customer Data Platform (CDP)
Zentrales System zur Vereinheitlichung von Kundendaten aus allen Quellen.
D
Dashboard
Eine visuelle Oberfläche, die wichtige Metriken, Trends und Alerts zur Unterstützung der Entscheidungsfindung präsentiert.
Data Drift
Die Veränderung der statistischen Eigenschaften von Eingabedaten über die Zeit, die die Modellleistung beeinträchtigen kann.
Data Governance
Data Governance ist das Framework aus Policies, Rollen, Prozessen und Controls, das sicherstellt, dass Daten akkurat, sicher, compliant und nutzbar über eine Organisation sind.
Data Labeling
Prozess der Annotation von Daten mit Ground Truth für überwachtes Lernen.
Data Lake
Zentraler Speicher für große Mengen unstrukturierter und strukturierter Daten.
Data Layout
Die physische oder logische Anordnung von Daten im Speicher oder auf Datenträgern, die Zugriffsgeschwindigkeit, Cache-Effizienz und Verarbeitungsperformance beeinflusst.
Data Mesh
Dezentraler Ansatz zur Datenarchitektur mit domänenorientierten Daten-Produkten.
Data Mining
Der Prozess der Entdeckung von Mustern, Anomalien und Zusammenhängen in großen Datensätzen mithilfe statistischer und maschineller Lernmethoden.
Data Warehouse
Ein System, das für strukturierte Analyseabfragen über kuratierte, bereinigte Daten optimiert ist – oft mit starker Governance.
Databricks
Databricks ist eine Unified-Analytics-Plattform, die Data Engineering, Data Science und Machine Learning auf Apache Spark vereint.
Datenanreicherung
Das Hinzufügen zusätzlicher Attribute zu bestehenden Daten – über interne Joins oder externe Quellen.
Datenherkunft
Datenherkunft beschreibt, woher Daten kommen, wie sie sich durch Systeme bewegen und wie sie in Downstream-Datasets und Outputs transformiert werden.
Datenkatalog
Ein durchsuchbares Inventar der Datenbestände einer Organisation, einschließlich Metadaten, Eigentümerschaft und Dokumentation.
Datenpipeline
Eine Sequenz von Prozessen, die Daten von Quellen zu Zielen (Lake, Warehouse, Feature Store, Vector Index) bewegt und transformiert.
Datenvisualisierung
Die grafische Darstellung von Daten zur Kommunikation von Insights und Mustern.
Datenvorverarbeitung
Die Transformation von Rohdaten in eine für Modellierung oder Analyse geeignete Form (Bereinigung, Normalisierung, Kodierung).
Datenwörterbuch
Dokumentation, die die Bedeutung, das Format, erlaubte Werte und die Verwendung von Datenfeldern definiert.
DBSCAN
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) ist ein Clustering-Algorithmus, der Cluster basierend auf der Dichte von Datenpunkten findet und Ausreißer automatisch identifiziert.
Decision Support System
Ein Decision Support System (DSS) hilft Menschen, bessere Entscheidungen zu treffen, indem es Daten, Modelle und Benutzeroberflächen kombiniert.
Deduplizierung
Deduplizierung ist das Identifizieren und Entfernen von doppelten (oder fast-doppelten) Elementen, um Redundanz zu reduzieren und Qualität zu verbessern.
Demand Forecasting
Vorhersage zukünftiger Nachfrage basierend auf historischen Daten und Faktoren.
Differentielle Privatsphäre
Ein mathematisches Framework, das formale Garantien bietet, dass individuelle Datenpunkte nicht aus Aggregaten oder Modellen abgeleitet werden können.
Dimensionsreduktion
Techniken zur Reduzierung der Anzahl von Features bei Erhaltung wichtiger Informationen.
E
ELT
ELT (Extract, Load, Transform) ist ein Datenintegrations-Paradigma, bei dem Rohdaten erst in ein Data Warehouse geladen und dort transformiert werden.
Entity Resolution
Entity Resolution ist der Prozess, mehrere Datensätze aus unterschiedlichen Quellen zu identifizieren, zu matchen und zu derselben realen Entität (Person, Unternehmen, Produkt) zusammenzuführen — auch wenn Schreibweisen, IDs oder Felder nicht identisch sind.
Entscheidungsschwelle
Der Grenzwert, der verwendet wird, um einen Modell-Score in eine Aktion umzuwandeln (z.B. genehmigen/ablehnen, routen/eskalieren).
Error Rate
Error Rate ist der Anteil der Ergebnisse, die relativ zu einer definierten Ground Truth oder Akzeptanzkriterien falsch sind.
ETL
Extract, Transform, Load – der Prozess der Datenextraktion, Transformation und Laden in Zielsysteme.
Euklidische Distanz
Geometrische Distanz zwischen zwei Punkten im Vektorraum.
Event Tracking
Die Erfassung und Analyse von Nutzerinteraktionen und -aktionen auf digitalen Plattformen.
Explorative Datenanalyse
Der Prozess der visuellen und statistischen Untersuchung von Daten vor dem Modellbau.
F
F1 Score
Das harmonische Mittel aus Precision und Recall, eine einzelne Metrik, die beide Aspekte der Klassifikationsleistung balanciert.
Feature Engineering
Der Prozess der Auswahl, Transformation und Erstellung von Eingabevariablen (Features) für Machine-Learning-Modelle, um deren Vorhersagekraft zu verbessern.
Feature Importance
Feature Importance quantifiziert, wie viel jedes Input-Feature zu den Vorhersagen eines Modells beiträgt (global oder für eine spezifische Vorhersage).
FinOps für KI
FinOps für KI wendet Financial-Operations-Praktiken (Kostentransparenz, Optimierung, Budgetierung, Accountability) auf KI-Workloads und KI-Produktnutzung an.
First-Party-Data-KI
Strategischer Ansatz, eigene Kundendaten als Differenzierungs-Layer auf generischen Foundation-Modellen einzusetzen.
First-Party-Daten
Daten, die direkt von eigenen Kunden und Nutzern gesammelt werden.
Fraud Detection
KI-gestützte Erkennung von betrügerischen Aktivitäten und Transaktionen.
Fuzzy Matching
Techniken zum Finden von ungefähren statt exakten Übereinstimmungen in Daten.
G
H
Heatmap
Eine visuelle Darstellung von Daten, bei der Werte durch Farbintensität kodiert werden.
Hit Rate
Misst den Anteil der Queries, für die mindestens ein relevantes Ergebnis in den Top-k gefunden wurde – oft als Recall@1.
Hypothesentests
Hypothesentests sind statistische Verfahren, mit denen geprüft wird, ob eine über Stichprobendaten beobachtete Aussage über eine Grundgesamtheit (Alternativhypothese) im Vergleich zu einer Standardannahme (Nullhypothese) statistisch belastbar ist.
I
Insights
Insights sind bedeutungsvolle Interpretationen von Daten, die Unsicherheit reduzieren und bessere Entscheidungen ermöglichen (deskriptiv, diagnostisch, prädiktiv oder präskriptiv).
Inter-Annotator Agreement (IAA)
Eine Metrik zur Messung der Übereinstimmung zwischen verschiedenen Annotatoren bei der Bewertung derselben Daten.
K
K-Anonymity
K-Anonymity ist eine Datenschutz-Eigenschaft, bei der jeder Datensatz von mindestens k−1 anderen Datensätzen bezüglich Quasi-Identifikatoren nicht unterscheidbar ist.
Kalman Filter
Ein Kalman-Filter ist ein Algorithmus zur Schätzung des verborgenen Zustands eines Systems über die Zeit aus verrauschten Messungen.
Kaplan-Meier Estimator
Der Kaplan-Meier Estimator schätzt eine Survival-Funktion (Wahrscheinlichkeit von "noch nicht gechurnt" über Zeit) und handhabt zensierte Daten.
Kausalinferenz
Kausalinferenz ist die Disziplin der Schätzung von Ursache-Wirkungs-Beziehungen (was würde passieren, wenn wir X ändern), nicht nur Korrelationen.
Kohortenanalyse
Kohortenanalyse gruppiert Nutzer oder Entitäten nach einem gemeinsamen Start-Event/Zeit (z.B. Signup-Woche) und trackt Verhalten über die Zeit.
Konfundierung
Konfundierung tritt auf, wenn eine dritte Variable sowohl die "Ursache" als auch die "Wirkung" beeinflusst und so eine irreführende Assoziation zwischen ihnen erzeugt.
Konfusionsmatrix
Eine Tabelle, die die Klassifikationsleistung zusammenfasst durch Zählung von True Positives, False Positives, True Negatives und False Negatives.
Kosinus-Ähnlichkeit
Maß für die Ähnlichkeit zweier Vektoren basierend auf dem Winkel zwischen ihnen.
L
Lift
Lift ist die inkrementelle Änderung eines Outcomes, die einer Intervention zugeordnet werden kann.
Lift Chart
Ein Lift Chart zeigt, wie gut ein Modell Positives ranked, indem Outcomes über gescorte Segmente verglichen werden.
Locality-Sensitive Hashing (LSH)
Locality-Sensitive Hashing (LSH) ist eine Technik, die ähnliche Items mit hoher Wahrscheinlichkeit in dieselben "Buckets" hasht, was schnelle approximative Similarity-Suche ermöglicht.
M
MAP (Mean Average Precision)
Der Durchschnitt der Average Precision über alle Queries – berücksichtigt sowohl Precision als auch Ranking-Position aller relevanten Dokumente.
Master Data Management (MDM)
Master Data Management (MDM) ist ein Ansatz zur Sicherstellung, dass kritische Unternehmensdaten (z.B. Kunden, Produkte, Standorte) konsistent, genau und über Systeme hinweg governed sind – oft mit dem Ziel einer "Single Source/Version of Truth".
MinHash
MinHash ist eine Technik zur effizienten Schätzung der Ähnlichkeit zwischen Mengen (besonders Jaccard-Ähnlichkeit), häufig für Near-Duplicate-Detection verwendet.
Minimum Detectable Effect (MDE)
MDE ist die kleinste echte Effektgröße, die ein Experiment zuverlässig erkennen kann, gegeben Traffic, Varianz, Signifikanzniveau und Power.
MRR (Mean Reciprocal Rank)
Der Durchschnitt der reziproken Ränge des ersten relevanten Ergebnisses über alle Queries – MRR = 1/n × Σ(1/rank_i).
N
NaN (Not a Number)
NaN ist ein spezieller Floating-Point Wert, der "Not a Number" bedeutet, verwendet um undefinierte oder nicht repräsentierbare numerische Ergebnisse darzustellen (z.B. 0/0).
Natural Experiment
Ein Natural Experiment nutzt reale Ereignisse oder operationale Änderungen (nicht von Ihnen randomisiert), die zufällige Zuweisung approximieren und kausale Inferenz unter Annahmen ermöglichen.
NDCG (Normalized Discounted Cumulative Gain)
Eine Ranking-Metrik, die sowohl Relevanzgrade als auch Positionen im Ranking berücksichtigt – höher gerankte relevante Items werden stärker gewichtet.
NDJSON (Newline-Delimited JSON)
NDJSON ist ein Format, bei dem jede Zeile ein valides JSON Object ist—was es einfach macht zu streamen, appenden und Logs/Events at Scale zu verarbeiten.
Negative Binomial Regression
Negative Binomial Regression ist ein statistisches Modell für Count Data (z.B. Clicks, Conversions), das Overdispersion (Varianz > Mittelwert) behandelt, anders als Poisson Regression.
Negative Control
Eine Negative Control ist eine Variable, ein Ergebnis oder eine Testbedingung, die von einer Intervention nicht beeinflusst werden sollte—verwendet zur Erkennung von Bias, Confounding oder Measurement-Artefakten.
NHST (Null Hypothesis Significance Testing)
NHST ist das traditionelle statistische Test-Framework, bei dem Sie testen, ob beobachtete Daten unter einer Nullhypothese (oft "kein Effekt") unwahrscheinlich sind, typischerweise mit p-Werten.
NMI (Normalized Mutual Information)
NMI ist eine Metrik zum Vergleichen von Clustering-Zuweisungen, indem gemessen wird, wie viel Information ein Clustering mit einem anderen teilt, normalisiert für Skalierungsfreundlichkeit.
Noise-to-Signal Ratio
Noise-to-Signal Ratio misst, wie viel zufällige Variation (Noise) relativ zum bedeutungsvollen Pattern (Signal) existiert, das Sie detecten wollen.
Non-Negative Matrix Factorization (NMF)
NMF faktorisiert eine nicht-negative Matrix in zwei kleinere nicht-negative Matrizen, oft verwendet für interpretierbare topic-artige Dekompositionen.
Non-Production Data Masking
Non-Production Data Masking ist die Praxis des Anonymisierens, Tokenisierens oder Synthetisierens sensitiver Daten, bevor sie in Dev/Staging/Test Environments verwendet werden.
Normal Form (Database)
In Datenbanken beschreiben Normal Forms (1NF, 2NF, 3NF, BCNF) Normalisierungsgrade, die Redundanz reduzieren und Datenintegrität verbessern.
Normalized Cost per Answer
Normalized Cost per Answer sind die Kosten für die Generierung einer KI-Antwort, angepasst für Vergleichbarkeit (z.B. normalisiert nach Antwortlänge, Tokens, Difficulty Tier oder Traffic Segment).
Normalized RMSE (NRMSE)
NRMSE ist RMSE normalisiert durch einen Scale Factor (z.B. Range, Mean oder Standard Deviation), um Errors über Datasets vergleichbar zu machen.
Null Value
Ein Null Value repräsentiert fehlende oder unbekannte Daten (unterschiedlich von Zero, leerem String oder False).
O
Observed vs Expected
Vergleicht tatsächliches Systemverhalten mit einer Baseline oder einem Modell des erwarteten Verhaltens, um Anomalien und Regressionen zu erkennen.
OLAP (Online Analytical Processing)
Eine Technologie für schnelle, multidimensionale Analysen großer Datenmengen, die Slice, Dice, Drill-Down und Roll-Up Operationen ermöglicht.
One-Hot Encoding
Repräsentation eines kategorialen Werts als Vektor aus Nullen mit einer einzelnen 1 am Kategorie-Index.
Ontologie
Formale Beschreibung von Konzepten, Eigenschaften und Beziehungen in einem Wissensbereich.
Outlier
Ein Datenpunkt, der signifikant vom Rest der Verteilung abweicht.
Outlier Detection
Identifizierung anomaler Datenpunkte oder Verhaltensweisen, die von erwarteten Mustern abweichen.
P
p-Hacking
Manipulation von Analyse-Entscheidungen (Stopping Rules, Segmentierung, Metriken, Ausschlüsse), um statistisch signifikante Ergebnisse zu erhalten.
p-Wert
Die Wahrscheinlichkeit, Ergebnisse mindestens so extrem wie beobachtet zu sehen, wenn die Nullhypothese wahr wäre.
PII (Personally Identifiable Information)
Informationen, die eine Person direkt oder indirekt identifizieren können (z.B. Name, E-Mail, Telefonnummer, Ausweis-IDs).
Präzision
Der Anteil der korrekt als positiv klassifizierten Fälle an allen als positiv klassifizierten Fällen.
Precision und Recall
Zwei komplementäre Metriken zur Bewertung von Klassifikationsmodellen bei unbalancierten Daten.
Precision@k
Misst, wie viele der Top-k abgerufenen Items relevant sind (relevante Items in Top-k ÷ k).
Provenienz
Provenienz sind Metadaten, die den Ursprung, die Historie und den Transformationspfad von Daten oder Content beschreiben – woher es kam, wie es sich geändert hat und wer/was es geändert hat.
Pseudonymisierung
Ersetzt Identifikatoren durch Pseudonyme, sodass Daten nicht direkt einer Person zugeordnet werden können ohne zusätzliche separate Informationen.
Q
Quality-Adjusted Cost per Answer
Quality-Adjusted Cost per Answer ist Cost-per-Answer interpretiert zusammen mit Qualitätsmetriken, um sicherzustellen, dass Kosteneinsparungen nicht aus degradierten Outputs kommen.
Quantil
Ein Quantil ist ein Wert, unterhalb dessen ein bestimmter Prozentsatz der Beobachtungen liegt (z.B. p50/Median, p95, p99).
Quantil-Regression
Quantil-Regression prognostiziert ein gewähltes Quantil der Zielverteilung (z.B. p90 Outcome) statt des Mittelwerts.
Quasi-Experiment
Ein Quasi-Experiment schätzt kausale Effekte ohne Randomisierung, mit Designs wie Difference-in-Differences, Regression Discontinuity oder Matching.
Quasi-Identifier
Ein Quasi-Identifier ist ein Datenattribut (oder Kombination), das allein niemanden identifiziert, aber in Kombination mit anderen Attributen identifizieren kann.
Query Optimizer
Ein Query Optimizer ist die Systemkomponente, die einen effizienten Query Plan wählt, oft basierend auf Statistiken und Heuristiken.
Query Plan
Ein Query Plan ist die Ausführungsstrategie, die eine Datenbank/Suchengine verwendet, um eine Anfrage zu beantworten (Joins, Index-Nutzung, Filter, Scan-Reihenfolge).
R
Recall
Der Anteil der korrekt identifizierten positiven Fälle an allen tatsächlich positiven Fällen.
Redaction
Redaction ist das Entfernen oder Maskieren sensibler Informationen (PII, Secrets, Credentials) aus Text, Logs, Dokumenten oder Outputs.
Reporting
Der Prozess der Sammlung, Organisation und Präsentation von Daten in strukturierten Formaten (Berichte, Dashboards), um Stakeholder zu informieren und Entscheidungen zu unterstützen.
S
Sampling
Sampling ist die Auswahl einer Teilmenge von Daten (oder Ergebnissen) aus einer größeren Population/Prozess, um Eigenschaften zu schätzen, Kosten zu reduzieren oder Exploration zu ermöglichen.
Schema
Ein Schema definiert die Struktur, Organisation und Constraints von Daten – sei es in Datenbanken, APIs oder strukturierten Datenformaten.
Schema-on-Read
Schema-on-Read ist ein Datenmanagement-Ansatz, bei dem die Struktur der Daten erst bei der Abfrage angewendet wird, nicht beim Speichern.
Segmentanalyse
Segmentanalyse bricht Metriken nach aussagekräftigen Gruppen (Segmenten) auf wie Channel, Device, Region, Kundentier oder Intent.
Sensitivitätsanalyse
Sensitivitätsanalyse evaluiert, wie Änderungen in Inputs die Outputs beeinflussen, um Robustheit und Schlüsselfaktoren zu verstehen.
Sentiment-Score
Numerischer Wert, der die emotionale Polarität eines Textes quantifiziert.
Session
Zeitraum der Nutzerinteraktion mit einer Website oder App.
Sessionization
Sessionization gruppiert User-Events in Sessions, um Verhalten über Zeit zu analysieren (Page Flows, Such-Sequenzen, Conversions).
SimHash
SimHash ist eine Fingerprinting-Methode, die einen kompakten Hash erzeugt, bei dem ähnliche Dokumente dazu neigen, ähnliche Hashes zu haben (kleine Hamming-Distanz).
Simpsons Paradoxon
Simpsons Paradoxon ist, wenn ein Trend in mehreren Gruppen erscheint, sich aber umkehrt oder verschwindet, wenn die Gruppen kombiniert werden, aufgrund von Konfundierung und Aggregation.
Snorkel
Snorkel ist ein Framework für programmatisches Data Labeling, das Labeling-Funktionen statt manueller Annotation verwendet, um große Trainingsdatensätze effizient zu erstellen.
Snowflake
Snowflake ist eine cloudnative Data-Warehouse-Plattform, die Speicher und Compute trennt und skalierbare Datenanalyse mit SQL ermöglicht.
Statistische Signifikanz (Statistical Significance)
Statistische Signifikanz beschreibt die Wahrscheinlichkeit, dass ein beobachteter Effekt nicht durch Zufall entstanden ist — gemessen über den p-Wert gegenüber einem festgelegten Schwellenwert (meist 0,05).
Streaming Data
Kontinuierlicher Datenfluss, der in Echtzeit verarbeitet wird.
Szenario-Analyse
Szenario-Analyse evaluiert Outcomes unter einer Menge kohärenter, plausibler zukünftiger Bedingungen (Szenarien), anstatt eine Variable nach der anderen zu ändern.
T
U
UDF (User-Defined Function)
Eine UDF ist eine benutzerdefinierte Funktion zur Erweiterung einer Plattform (SQL-Engines, Data Warehouses).
Unit Economics
Unit Economics misst Profitabilität pro Unit (Kunde, Query, Workflow) vs variable Kosten.
Unstructured Data
Unstrukturierte Daten sind nicht in vordefiniertem Schema gespeichert (PDFs, E-Mails, Chats, Wikis, Tickets).
Usage Telemetry
Usage Telemetry erfasst, wie ein Produkt genutzt wird (Events, Funnels, Intent Patterns).
V
Validation Set
Ein Validation Set ist ein zurückgehaltener Datensatz, der während der Modellentwicklung verwendet wird, um Hyperparameter zu tunen und Modellversionen auszuwählen, ohne das finale Testset zu berühren.
Varianz
Varianz ist der Grad, zu dem die Leistung eines Modells über verschiedene Datensätze/Samples variiert; hohe Varianz deutet oft auf Sensitivität gegenüber Trainingsdaten hin (Overfitting-Risiko).
Vector Database
Eine Vektor-Datenbank speichert Embeddings und unterstützt schnelle Ähnlichkeitssuche (Nearest Neighbors), oft mit Metadaten-Filterung und Indexierung für Skalierung.
Vector Embedding
Ein Vector Embedding ist eine numerische Repräsentation (Array von Floats) von Text, Bildern oder anderen Daten, die semantische Bedeutung in einem hochdimensionalen Raum kodiert.
Vector Index
Ein Vector Index ist die Datenstruktur/der Algorithmus, der verwendet wird, um Nearest-Neighbor-Suche über Embeddings im großen Maßstab zu beschleunigen.
Vector Quantization
Vector Quantization (VQ) komprimiert kontinuierliche Vektoren, indem sie auf eine endliche Menge repräsentativer Vektoren (ein Codebook) abgebildet werden.
Vector Similarity
Vector Similarity ist ein Maß dafür, wie nah zwei Embeddings sind (üblicherweise Cosine Similarity oder Dot Product).
Vector Store
Ein Vector Store ist die Storage-Schicht (Datenbank oder Service), die Embeddings plus Metadaten für Retrieval und Ähnlichkeitssuche hält.
Vector Store Hygiene
Vector Store Hygiene ist die operationelle Disziplin, einen Vector Store akkurat, sicher, performant und aktuell zu halten (Dedupe, Versionierung, ACL-Korrektheit, Drift-Monitoring, Purge-Workflows).
Vektorsuche
Vektorsuche ruft Items nach Ähnlichkeit in einem Embedding-Raum ab, anstatt exakter Keyword-Matches.
Verteilungsverschiebung
Eine Diskrepanz zwischen der Datenverteilung im Training und der Verteilung im Deployment.
Y
Y-Achsen-Kompression
Y-Achsen-Kompression ist ein Visualisierungsproblem, bei dem Skalierungsentscheidungen Unterschiede abflachen und Änderungen kleiner (oder größer) aussehen lassen, als sie sind.
Yield
Yield ist der Anteil der Eingaben, die erfolgreich akzeptable Ausgaben produzieren (z.B. erfolgreiche Läufe, gültige Datensätze, bestandene Artefakte).
Yield-Rate
Yield-Rate ist Yield ausgedrückt als Prozentsatz über eine definierte Population und Zeitfenster.
Yottabyte
Ein Yottabyte (YB) ist eine Dateneinheit gleich 10²⁴ Bytes (eine Septillion Bytes).
YoY (Year-over-Year)
Year-over-Year (YoY) vergleicht eine Metrik mit dem gleichen Zeitraum im Vorjahr (z.B. Jan 2026 vs Jan 2025).
YTD (Year-to-Date)
Year-to-Date (YTD) misst Performance vom Beginn des aktuellen Jahres bis heute.
Yule-Simpson-Paradoxon
Das Yule-Simpson-Paradoxon (oft Simpson's Paradoxon genannt) tritt auf, wenn ein Trend in mehreren Gruppen erscheint, aber sich umkehrt oder verschwindet, wenn die Gruppen kombiniert werden.
Z
Z-Order Curve
Eine Z-Order Curve (Morton Order) ist eine raumfüllende Kurve, die multidimensionale Daten in eine eindimensionale Ordnung abbildet und dabei Lokalität bewahrt.
Z-Ordering
Z-Ordering ist die Praxis, gespeicherte Daten physisch mit Z-Order-Curves zu organisieren, sodass verwandte Werte auf der Disk kolokiert sind.
Z-Score
Ein Z-Score ist die Anzahl der Standardabweichungen, die ein Datenpunkt vom Mittelwert entfernt ist.
Z-Test
Ein Z-Test ist ein statistischer Hypothesentest, um zu bestimmen, ob ein Stichproben-Mittelwert von einem bekannten Populations-Mittelwert abweicht (oder ob zwei Mittelwerte unterschiedlich sind) unter bestimmten Annahmen.
Zeitreihe
Sequenz von Datenpunkten, die in zeitlicher Reihenfolge geordnet sind.
Zeitreihenanalyse
Analyse von Datenpunkten, die über Zeit gesammelt wurden, um Muster zu erkennen.
Zero-ETL
Zero-ETL bezieht sich auf Architekturen, die traditionelle ETL-Pipelines minimieren oder eliminieren, indem sie Near-Direct-Data-Access/Replication zwischen Systemen mit niedrigem operationellem Overhead ermöglichen.
Zero-Party Data
Zero-Party Data sind Daten, die ein Kunde absichtlich und proaktiv mit einer Marke teilt (Präferenzen, Absichten, Ziele), anstatt inferiert oder getrackt zu werden.
Zettabyte
Ein Zettabyte (ZB) ist eine Dateneinheit gleich 10²¹ Bytes.
Zipf's Law
Zipf's Law beschreibt, wie in vielen natürlichen Datensätzen (Sprache, Queries) einige wenige Items extrem häufig sind, während die meisten selten sind (Long-Tail-Verteilung).
Begriff nicht gefunden?
Durchsuchen Sie das gesamte Glossar mit über 1407 Begriffen aus allen Kategorien.
Gesamtes Glossar ansehen