Daten & Analytics

Daten-Begriffe A-Z

Die Sprache der Daten verstehen: Von Big Data über ETL bis hin zu Predictive Analytics – alle wichtigen Begriffe für datengetriebenes Marketing und Business Intelligence.

Big Data

Data Lakes

ETL Prozesse

Business Intelligence

Predictive Analytics

Data Governance

Andere Kategorien:Künstliche Intelligenz Marketing Technologie Automatisierung

161 Begriffe in Daten & Analytics

A

Analytics

Die systematische Analyse von Daten zur Gewinnung von Erkenntnissen und zur Unterstützung von Entscheidungen.

Anomaly Detection

Identifikation von ungewöhnlichen Mustern oder Ausreißern in Daten.

B

Batch-Verarbeitung

Verarbeitung großer Datenmengen in gesammelten Blöcken statt in Echtzeit.

Benchmark

Ein Referenzpunkt oder Standard, gegen den Performance gemessen und verglichen wird.

Business Intelligence

Business Intelligence (BI) ist die Praxis und Tooling zur Transformation von Daten in Dashboards, Reports und Analysen, die Geschäftsentscheidungen unterstützen.

C

Chain of Custody

Chain of Custody ist der dokumentierte Trail, wie ein Artefakt (Daten, Evidenz, Content) gesammelt, gehandhabt, gespeichert und zugegriffen wurde – um Integrität und Accountability sicherzustellen.

Clickstream-Daten

Ein zeitlich geordneter Datensatz von Benutzerinteraktionen (Klicks, Seitenaufrufe, Events) auf digitalen Properties wie Websites und Apps.

Cohen's Kappa

Eine Statistik zur Messung der Inter-Rater-Reliabilität für kategoriale Bewertungen, die für zufällige Übereinstimmung korrigiert.

Content Fingerprinting

Content Fingerprinting erstellt eine kompakte Signatur (Fingerprint) von Content, um Identifizierung, Deduplizierung, Similarity-Detection oder Provenance-Tracking zu ermöglichen.

Customer Data Platform (CDP)

Zentrales System zur Vereinheitlichung von Kundendaten aus allen Quellen.

D

Dashboard

Eine visuelle Oberfläche, die wichtige Metriken, Trends und Alerts zur Unterstützung der Entscheidungsfindung präsentiert.

Data Drift

Die Veränderung der statistischen Eigenschaften von Eingabedaten über die Zeit, die die Modellleistung beeinträchtigen kann.

Data Governance

Data Governance ist das Framework aus Policies, Rollen, Prozessen und Controls, das sicherstellt, dass Daten akkurat, sicher, compliant und nutzbar über eine Organisation sind.

Data Labeling

Prozess der Annotation von Daten mit Ground Truth für überwachtes Lernen.

Data Lake

Zentraler Speicher für große Mengen unstrukturierter und strukturierter Daten.

Data Layout

Die physische oder logische Anordnung von Daten im Speicher oder auf Datenträgern, die Zugriffsgeschwindigkeit, Cache-Effizienz und Verarbeitungsperformance beeinflusst.

Data Mesh

Dezentraler Ansatz zur Datenarchitektur mit domänenorientierten Daten-Produkten.

Data Mining

Der Prozess der Entdeckung von Mustern, Anomalien und Zusammenhängen in großen Datensätzen mithilfe statistischer und maschineller Lernmethoden.

Data Warehouse

Ein System, das für strukturierte Analyseabfragen über kuratierte, bereinigte Daten optimiert ist – oft mit starker Governance.

Databricks

Databricks ist eine Unified-Analytics-Plattform, die Data Engineering, Data Science und Machine Learning auf Apache Spark vereint.

Datenanreicherung

Das Hinzufügen zusätzlicher Attribute zu bestehenden Daten – über interne Joins oder externe Quellen.

Datenherkunft

Datenherkunft beschreibt, woher Daten kommen, wie sie sich durch Systeme bewegen und wie sie in Downstream-Datasets und Outputs transformiert werden.

Datenkatalog

Ein durchsuchbares Inventar der Datenbestände einer Organisation, einschließlich Metadaten, Eigentümerschaft und Dokumentation.

Datenpipeline

Eine Sequenz von Prozessen, die Daten von Quellen zu Zielen (Lake, Warehouse, Feature Store, Vector Index) bewegt und transformiert.

Datenvisualisierung

Die grafische Darstellung von Daten zur Kommunikation von Insights und Mustern.

Datenvorverarbeitung

Die Transformation von Rohdaten in eine für Modellierung oder Analyse geeignete Form (Bereinigung, Normalisierung, Kodierung).

Datenwörterbuch

Dokumentation, die die Bedeutung, das Format, erlaubte Werte und die Verwendung von Datenfeldern definiert.

DBSCAN

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) ist ein Clustering-Algorithmus, der Cluster basierend auf der Dichte von Datenpunkten findet und Ausreißer automatisch identifiziert.

Decision Support System

Ein Decision Support System (DSS) hilft Menschen, bessere Entscheidungen zu treffen, indem es Daten, Modelle und Benutzeroberflächen kombiniert.

Deduplizierung

Deduplizierung ist das Identifizieren und Entfernen von doppelten (oder fast-doppelten) Elementen, um Redundanz zu reduzieren und Qualität zu verbessern.

Demand Forecasting

Vorhersage zukünftiger Nachfrage basierend auf historischen Daten und Faktoren.

Differentielle Privatsphäre

Ein mathematisches Framework, das formale Garantien bietet, dass individuelle Datenpunkte nicht aus Aggregaten oder Modellen abgeleitet werden können.

Dimensionsreduktion

Techniken zur Reduzierung der Anzahl von Features bei Erhaltung wichtiger Informationen.

E

ELT

ELT (Extract, Load, Transform) ist ein Datenintegrations-Paradigma, bei dem Rohdaten erst in ein Data Warehouse geladen und dort transformiert werden.

Entity Resolution

Entity Resolution ist der Prozess, mehrere Datensätze aus unterschiedlichen Quellen zu identifizieren, zu matchen und zu derselben realen Entität (Person, Unternehmen, Produkt) zusammenzuführen — auch wenn Schreibweisen, IDs oder Felder nicht identisch sind.

Entscheidungsschwelle

Der Grenzwert, der verwendet wird, um einen Modell-Score in eine Aktion umzuwandeln (z.B. genehmigen/ablehnen, routen/eskalieren).

Error Rate

Error Rate ist der Anteil der Ergebnisse, die relativ zu einer definierten Ground Truth oder Akzeptanzkriterien falsch sind.

ETL

Extract, Transform, Load – der Prozess der Datenextraktion, Transformation und Laden in Zielsysteme.

Euklidische Distanz

Geometrische Distanz zwischen zwei Punkten im Vektorraum.

Event Tracking

Die Erfassung und Analyse von Nutzerinteraktionen und -aktionen auf digitalen Plattformen.

Explorative Datenanalyse

Der Prozess der visuellen und statistischen Untersuchung von Daten vor dem Modellbau.

F

F1 Score

Das harmonische Mittel aus Precision und Recall, eine einzelne Metrik, die beide Aspekte der Klassifikationsleistung balanciert.

Feature Engineering

Der Prozess der Auswahl, Transformation und Erstellung von Eingabevariablen (Features) für Machine-Learning-Modelle, um deren Vorhersagekraft zu verbessern.

Feature Importance

Feature Importance quantifiziert, wie viel jedes Input-Feature zu den Vorhersagen eines Modells beiträgt (global oder für eine spezifische Vorhersage).

FinOps für KI

FinOps für KI wendet Financial-Operations-Praktiken (Kostentransparenz, Optimierung, Budgetierung, Accountability) auf KI-Workloads und KI-Produktnutzung an.

First-Party-Data-KI

Strategischer Ansatz, eigene Kundendaten als Differenzierungs-Layer auf generischen Foundation-Modellen einzusetzen.

First-Party-Daten

Daten, die direkt von eigenen Kunden und Nutzern gesammelt werden.

Fraud Detection

KI-gestützte Erkennung von betrügerischen Aktivitäten und Transaktionen.

Fuzzy Matching

Techniken zum Finden von ungefähren statt exakten Übereinstimmungen in Daten.

G

Gauß-Verteilung

Eine symmetrische Wahrscheinlichkeitsverteilung, auch Normalverteilung genannt.

Genauigkeit

Eine Metrik im maschinellen Lernen, die den Anteil korrekter Vorhersagen an allen Vorhersagen misst.

H

Heatmap

Eine visuelle Darstellung von Daten, bei der Werte durch Farbintensität kodiert werden.

Hit Rate

Misst den Anteil der Queries, für die mindestens ein relevantes Ergebnis in den Top-k gefunden wurde – oft als Recall@1.

Hypothesentests

Hypothesentests sind statistische Verfahren, mit denen geprüft wird, ob eine über Stichprobendaten beobachtete Aussage über eine Grundgesamtheit (Alternativhypothese) im Vergleich zu einer Standardannahme (Nullhypothese) statistisch belastbar ist.

I

Insights

Insights sind bedeutungsvolle Interpretationen von Daten, die Unsicherheit reduzieren und bessere Entscheidungen ermöglichen (deskriptiv, diagnostisch, prädiktiv oder präskriptiv).

Inter-Annotator Agreement (IAA)

Eine Metrik zur Messung der Übereinstimmung zwischen verschiedenen Annotatoren bei der Bewertung derselben Daten.

K

K-Anonymity

K-Anonymity ist eine Datenschutz-Eigenschaft, bei der jeder Datensatz von mindestens k−1 anderen Datensätzen bezüglich Quasi-Identifikatoren nicht unterscheidbar ist.

Kalman Filter

Ein Kalman-Filter ist ein Algorithmus zur Schätzung des verborgenen Zustands eines Systems über die Zeit aus verrauschten Messungen.

Kaplan-Meier Estimator

Der Kaplan-Meier Estimator schätzt eine Survival-Funktion (Wahrscheinlichkeit von "noch nicht gechurnt" über Zeit) und handhabt zensierte Daten.

Kausalinferenz

Kausalinferenz ist die Disziplin der Schätzung von Ursache-Wirkungs-Beziehungen (was würde passieren, wenn wir X ändern), nicht nur Korrelationen.

Kohortenanalyse

Kohortenanalyse gruppiert Nutzer oder Entitäten nach einem gemeinsamen Start-Event/Zeit (z.B. Signup-Woche) und trackt Verhalten über die Zeit.

Konfundierung

Konfundierung tritt auf, wenn eine dritte Variable sowohl die "Ursache" als auch die "Wirkung" beeinflusst und so eine irreführende Assoziation zwischen ihnen erzeugt.

Konfusionsmatrix

Eine Tabelle, die die Klassifikationsleistung zusammenfasst durch Zählung von True Positives, False Positives, True Negatives und False Negatives.

Kosinus-Ähnlichkeit

Maß für die Ähnlichkeit zweier Vektoren basierend auf dem Winkel zwischen ihnen.

L

Lift

Lift ist die inkrementelle Änderung eines Outcomes, die einer Intervention zugeordnet werden kann.

Lift Chart

Ein Lift Chart zeigt, wie gut ein Modell Positives ranked, indem Outcomes über gescorte Segmente verglichen werden.

Locality-Sensitive Hashing (LSH)

Locality-Sensitive Hashing (LSH) ist eine Technik, die ähnliche Items mit hoher Wahrscheinlichkeit in dieselben "Buckets" hasht, was schnelle approximative Similarity-Suche ermöglicht.

M

MAP (Mean Average Precision)

Der Durchschnitt der Average Precision über alle Queries – berücksichtigt sowohl Precision als auch Ranking-Position aller relevanten Dokumente.

Master Data Management (MDM)

Master Data Management (MDM) ist ein Ansatz zur Sicherstellung, dass kritische Unternehmensdaten (z.B. Kunden, Produkte, Standorte) konsistent, genau und über Systeme hinweg governed sind – oft mit dem Ziel einer "Single Source/Version of Truth".

MinHash

MinHash ist eine Technik zur effizienten Schätzung der Ähnlichkeit zwischen Mengen (besonders Jaccard-Ähnlichkeit), häufig für Near-Duplicate-Detection verwendet.

Minimum Detectable Effect (MDE)

MDE ist die kleinste echte Effektgröße, die ein Experiment zuverlässig erkennen kann, gegeben Traffic, Varianz, Signifikanzniveau und Power.

MRR (Mean Reciprocal Rank)

Der Durchschnitt der reziproken Ränge des ersten relevanten Ergebnisses über alle Queries – MRR = 1/n × Σ(1/rank_i).

N

NaN (Not a Number)

NaN ist ein spezieller Floating-Point Wert, der "Not a Number" bedeutet, verwendet um undefinierte oder nicht repräsentierbare numerische Ergebnisse darzustellen (z.B. 0/0).

Natural Experiment

Ein Natural Experiment nutzt reale Ereignisse oder operationale Änderungen (nicht von Ihnen randomisiert), die zufällige Zuweisung approximieren und kausale Inferenz unter Annahmen ermöglichen.

NDCG (Normalized Discounted Cumulative Gain)

Eine Ranking-Metrik, die sowohl Relevanzgrade als auch Positionen im Ranking berücksichtigt – höher gerankte relevante Items werden stärker gewichtet.

NDJSON (Newline-Delimited JSON)

NDJSON ist ein Format, bei dem jede Zeile ein valides JSON Object ist—was es einfach macht zu streamen, appenden und Logs/Events at Scale zu verarbeiten.

Negative Binomial Regression

Negative Binomial Regression ist ein statistisches Modell für Count Data (z.B. Clicks, Conversions), das Overdispersion (Varianz > Mittelwert) behandelt, anders als Poisson Regression.

Negative Control

Eine Negative Control ist eine Variable, ein Ergebnis oder eine Testbedingung, die von einer Intervention nicht beeinflusst werden sollte—verwendet zur Erkennung von Bias, Confounding oder Measurement-Artefakten.

NHST (Null Hypothesis Significance Testing)

NHST ist das traditionelle statistische Test-Framework, bei dem Sie testen, ob beobachtete Daten unter einer Nullhypothese (oft "kein Effekt") unwahrscheinlich sind, typischerweise mit p-Werten.

NMI (Normalized Mutual Information)

NMI ist eine Metrik zum Vergleichen von Clustering-Zuweisungen, indem gemessen wird, wie viel Information ein Clustering mit einem anderen teilt, normalisiert für Skalierungsfreundlichkeit.

Noise-to-Signal Ratio

Noise-to-Signal Ratio misst, wie viel zufällige Variation (Noise) relativ zum bedeutungsvollen Pattern (Signal) existiert, das Sie detecten wollen.

Non-Negative Matrix Factorization (NMF)

NMF faktorisiert eine nicht-negative Matrix in zwei kleinere nicht-negative Matrizen, oft verwendet für interpretierbare topic-artige Dekompositionen.

Non-Production Data Masking

Non-Production Data Masking ist die Praxis des Anonymisierens, Tokenisierens oder Synthetisierens sensitiver Daten, bevor sie in Dev/Staging/Test Environments verwendet werden.

Normal Form (Database)

In Datenbanken beschreiben Normal Forms (1NF, 2NF, 3NF, BCNF) Normalisierungsgrade, die Redundanz reduzieren und Datenintegrität verbessern.

Normalized Cost per Answer

Normalized Cost per Answer sind die Kosten für die Generierung einer KI-Antwort, angepasst für Vergleichbarkeit (z.B. normalisiert nach Antwortlänge, Tokens, Difficulty Tier oder Traffic Segment).

Normalized RMSE (NRMSE)

NRMSE ist RMSE normalisiert durch einen Scale Factor (z.B. Range, Mean oder Standard Deviation), um Errors über Datasets vergleichbar zu machen.

Null Value

Ein Null Value repräsentiert fehlende oder unbekannte Daten (unterschiedlich von Zero, leerem String oder False).

O

Observed vs Expected

Vergleicht tatsächliches Systemverhalten mit einer Baseline oder einem Modell des erwarteten Verhaltens, um Anomalien und Regressionen zu erkennen.

OLAP (Online Analytical Processing)

Eine Technologie für schnelle, multidimensionale Analysen großer Datenmengen, die Slice, Dice, Drill-Down und Roll-Up Operationen ermöglicht.

One-Hot Encoding

Repräsentation eines kategorialen Werts als Vektor aus Nullen mit einer einzelnen 1 am Kategorie-Index.

Ontologie

Formale Beschreibung von Konzepten, Eigenschaften und Beziehungen in einem Wissensbereich.

Outlier

Ein Datenpunkt, der signifikant vom Rest der Verteilung abweicht.

Outlier Detection

Identifizierung anomaler Datenpunkte oder Verhaltensweisen, die von erwarteten Mustern abweichen.

P

p-Hacking

Manipulation von Analyse-Entscheidungen (Stopping Rules, Segmentierung, Metriken, Ausschlüsse), um statistisch signifikante Ergebnisse zu erhalten.

p-Wert

Die Wahrscheinlichkeit, Ergebnisse mindestens so extrem wie beobachtet zu sehen, wenn die Nullhypothese wahr wäre.

PII (Personally Identifiable Information)

Informationen, die eine Person direkt oder indirekt identifizieren können (z.B. Name, E-Mail, Telefonnummer, Ausweis-IDs).

Präzision

Der Anteil der korrekt als positiv klassifizierten Fälle an allen als positiv klassifizierten Fällen.

Precision und Recall

Zwei komplementäre Metriken zur Bewertung von Klassifikationsmodellen bei unbalancierten Daten.

Precision@k

Misst, wie viele der Top-k abgerufenen Items relevant sind (relevante Items in Top-k ÷ k).

Provenienz

Provenienz sind Metadaten, die den Ursprung, die Historie und den Transformationspfad von Daten oder Content beschreiben – woher es kam, wie es sich geändert hat und wer/was es geändert hat.

Pseudonymisierung

Ersetzt Identifikatoren durch Pseudonyme, sodass Daten nicht direkt einer Person zugeordnet werden können ohne zusätzliche separate Informationen.

Q

Quality-Adjusted Cost per Answer

Quality-Adjusted Cost per Answer ist Cost-per-Answer interpretiert zusammen mit Qualitätsmetriken, um sicherzustellen, dass Kosteneinsparungen nicht aus degradierten Outputs kommen.

Quantil

Ein Quantil ist ein Wert, unterhalb dessen ein bestimmter Prozentsatz der Beobachtungen liegt (z.B. p50/Median, p95, p99).

Quantil-Regression

Quantil-Regression prognostiziert ein gewähltes Quantil der Zielverteilung (z.B. p90 Outcome) statt des Mittelwerts.

Quasi-Experiment

Ein Quasi-Experiment schätzt kausale Effekte ohne Randomisierung, mit Designs wie Difference-in-Differences, Regression Discontinuity oder Matching.

Quasi-Identifier

Ein Quasi-Identifier ist ein Datenattribut (oder Kombination), das allein niemanden identifiziert, aber in Kombination mit anderen Attributen identifizieren kann.

Query Optimizer

Ein Query Optimizer ist die Systemkomponente, die einen effizienten Query Plan wählt, oft basierend auf Statistiken und Heuristiken.

Query Plan

Ein Query Plan ist die Ausführungsstrategie, die eine Datenbank/Suchengine verwendet, um eine Anfrage zu beantworten (Joins, Index-Nutzung, Filter, Scan-Reihenfolge).

R

Recall

Der Anteil der korrekt identifizierten positiven Fälle an allen tatsächlich positiven Fällen.

Redaction

Redaction ist das Entfernen oder Maskieren sensibler Informationen (PII, Secrets, Credentials) aus Text, Logs, Dokumenten oder Outputs.

Reporting

Der Prozess der Sammlung, Organisation und Präsentation von Daten in strukturierten Formaten (Berichte, Dashboards), um Stakeholder zu informieren und Entscheidungen zu unterstützen.

S

Sampling

Sampling ist die Auswahl einer Teilmenge von Daten (oder Ergebnissen) aus einer größeren Population/Prozess, um Eigenschaften zu schätzen, Kosten zu reduzieren oder Exploration zu ermöglichen.

Schema

Ein Schema definiert die Struktur, Organisation und Constraints von Daten – sei es in Datenbanken, APIs oder strukturierten Datenformaten.

Schema-on-Read

Schema-on-Read ist ein Datenmanagement-Ansatz, bei dem die Struktur der Daten erst bei der Abfrage angewendet wird, nicht beim Speichern.

Segmentanalyse

Segmentanalyse bricht Metriken nach aussagekräftigen Gruppen (Segmenten) auf wie Channel, Device, Region, Kundentier oder Intent.

Sensitivitätsanalyse

Sensitivitätsanalyse evaluiert, wie Änderungen in Inputs die Outputs beeinflussen, um Robustheit und Schlüsselfaktoren zu verstehen.

Sentiment-Score

Numerischer Wert, der die emotionale Polarität eines Textes quantifiziert.

Session

Zeitraum der Nutzerinteraktion mit einer Website oder App.

Sessionization

Sessionization gruppiert User-Events in Sessions, um Verhalten über Zeit zu analysieren (Page Flows, Such-Sequenzen, Conversions).

SimHash

SimHash ist eine Fingerprinting-Methode, die einen kompakten Hash erzeugt, bei dem ähnliche Dokumente dazu neigen, ähnliche Hashes zu haben (kleine Hamming-Distanz).

Simpsons Paradoxon

Simpsons Paradoxon ist, wenn ein Trend in mehreren Gruppen erscheint, sich aber umkehrt oder verschwindet, wenn die Gruppen kombiniert werden, aufgrund von Konfundierung und Aggregation.

Snorkel

Snorkel ist ein Framework für programmatisches Data Labeling, das Labeling-Funktionen statt manueller Annotation verwendet, um große Trainingsdatensätze effizient zu erstellen.

Snowflake

Snowflake ist eine cloudnative Data-Warehouse-Plattform, die Speicher und Compute trennt und skalierbare Datenanalyse mit SQL ermöglicht.

Statistische Signifikanz (Statistical Significance)

Statistische Signifikanz beschreibt die Wahrscheinlichkeit, dass ein beobachteter Effekt nicht durch Zufall entstanden ist — gemessen über den p-Wert gegenüber einem festgelegten Schwellenwert (meist 0,05).

Streaming Data

Kontinuierlicher Datenfluss, der in Echtzeit verarbeitet wird.

Szenario-Analyse

Szenario-Analyse evaluiert Outcomes unter einer Menge kohärenter, plausibler zukünftiger Bedingungen (Szenarien), anstatt eine Variable nach der anderen zu ändern.

T

Taxonomie

Eine Taxonomie ist ein hierarchisches Klassifikationssystem, das Konzepte, Inhalte oder Entitäten in geordnete Kategorien und Unterkategorien einteilt.

Topic Modeling

Unüberwachte ML-Methode zur Entdeckung abstrakter Themen in Dokumentensammlungen.

U

UDF (User-Defined Function)

Eine UDF ist eine benutzerdefinierte Funktion zur Erweiterung einer Plattform (SQL-Engines, Data Warehouses).

Unit Economics

Unit Economics misst Profitabilität pro Unit (Kunde, Query, Workflow) vs variable Kosten.

Unstructured Data

Unstrukturierte Daten sind nicht in vordefiniertem Schema gespeichert (PDFs, E-Mails, Chats, Wikis, Tickets).

Usage Telemetry

Usage Telemetry erfasst, wie ein Produkt genutzt wird (Events, Funnels, Intent Patterns).

V

Validation Set

Ein Validation Set ist ein zurückgehaltener Datensatz, der während der Modellentwicklung verwendet wird, um Hyperparameter zu tunen und Modellversionen auszuwählen, ohne das finale Testset zu berühren.

Varianz

Varianz ist der Grad, zu dem die Leistung eines Modells über verschiedene Datensätze/Samples variiert; hohe Varianz deutet oft auf Sensitivität gegenüber Trainingsdaten hin (Overfitting-Risiko).

Vector Database

Eine Vektor-Datenbank speichert Embeddings und unterstützt schnelle Ähnlichkeitssuche (Nearest Neighbors), oft mit Metadaten-Filterung und Indexierung für Skalierung.

Vector Embedding

Ein Vector Embedding ist eine numerische Repräsentation (Array von Floats) von Text, Bildern oder anderen Daten, die semantische Bedeutung in einem hochdimensionalen Raum kodiert.

Vector Index

Ein Vector Index ist die Datenstruktur/der Algorithmus, der verwendet wird, um Nearest-Neighbor-Suche über Embeddings im großen Maßstab zu beschleunigen.

Vector Quantization

Vector Quantization (VQ) komprimiert kontinuierliche Vektoren, indem sie auf eine endliche Menge repräsentativer Vektoren (ein Codebook) abgebildet werden.

Vector Similarity

Vector Similarity ist ein Maß dafür, wie nah zwei Embeddings sind (üblicherweise Cosine Similarity oder Dot Product).

Vector Store

Ein Vector Store ist die Storage-Schicht (Datenbank oder Service), die Embeddings plus Metadaten für Retrieval und Ähnlichkeitssuche hält.

Vector Store Hygiene

Vector Store Hygiene ist die operationelle Disziplin, einen Vector Store akkurat, sicher, performant und aktuell zu halten (Dedupe, Versionierung, ACL-Korrektheit, Drift-Monitoring, Purge-Workflows).

Vektorsuche

Vektorsuche ruft Items nach Ähnlichkeit in einem Embedding-Raum ab, anstatt exakter Keyword-Matches.

Verteilungsverschiebung

Eine Diskrepanz zwischen der Datenverteilung im Training und der Verteilung im Deployment.

W

What-If-Analyse

What-If-Analyse exploriert, wie sich Ergebnisse ändern, wenn Inputs, Annahmen oder Entscheidungen variiert werden.

Y

Y-Achsen-Kompression

Y-Achsen-Kompression ist ein Visualisierungsproblem, bei dem Skalierungsentscheidungen Unterschiede abflachen und Änderungen kleiner (oder größer) aussehen lassen, als sie sind.

Yield

Yield ist der Anteil der Eingaben, die erfolgreich akzeptable Ausgaben produzieren (z.B. erfolgreiche Läufe, gültige Datensätze, bestandene Artefakte).

Yield-Rate

Yield-Rate ist Yield ausgedrückt als Prozentsatz über eine definierte Population und Zeitfenster.

Yottabyte

Ein Yottabyte (YB) ist eine Dateneinheit gleich 10²⁴ Bytes (eine Septillion Bytes).

YoY (Year-over-Year)

Year-over-Year (YoY) vergleicht eine Metrik mit dem gleichen Zeitraum im Vorjahr (z.B. Jan 2026 vs Jan 2025).

YTD (Year-to-Date)

Year-to-Date (YTD) misst Performance vom Beginn des aktuellen Jahres bis heute.

Yule-Simpson-Paradoxon

Das Yule-Simpson-Paradoxon (oft Simpson's Paradoxon genannt) tritt auf, wenn ein Trend in mehreren Gruppen erscheint, aber sich umkehrt oder verschwindet, wenn die Gruppen kombiniert werden.

Z

Z-Order Curve

Eine Z-Order Curve (Morton Order) ist eine raumfüllende Kurve, die multidimensionale Daten in eine eindimensionale Ordnung abbildet und dabei Lokalität bewahrt.

Z-Ordering

Z-Ordering ist die Praxis, gespeicherte Daten physisch mit Z-Order-Curves zu organisieren, sodass verwandte Werte auf der Disk kolokiert sind.

Z-Score

Ein Z-Score ist die Anzahl der Standardabweichungen, die ein Datenpunkt vom Mittelwert entfernt ist.

Z-Test

Ein Z-Test ist ein statistischer Hypothesentest, um zu bestimmen, ob ein Stichproben-Mittelwert von einem bekannten Populations-Mittelwert abweicht (oder ob zwei Mittelwerte unterschiedlich sind) unter bestimmten Annahmen.

Zeitreihe

Sequenz von Datenpunkten, die in zeitlicher Reihenfolge geordnet sind.

Zeitreihenanalyse

Analyse von Datenpunkten, die über Zeit gesammelt wurden, um Muster zu erkennen.

Zero-ETL

Zero-ETL bezieht sich auf Architekturen, die traditionelle ETL-Pipelines minimieren oder eliminieren, indem sie Near-Direct-Data-Access/Replication zwischen Systemen mit niedrigem operationellem Overhead ermöglichen.

Zero-Party Data

Zero-Party Data sind Daten, die ein Kunde absichtlich und proaktiv mit einer Marke teilt (Präferenzen, Absichten, Ziele), anstatt inferiert oder getrackt zu werden.

Zettabyte

Ein Zettabyte (ZB) ist eine Dateneinheit gleich 10²¹ Bytes.

Zipf's Law

Zipf's Law beschreibt, wie in vielen natürlichen Datensätzen (Sprache, Queries) einige wenige Items extrem häufig sind, während die meisten selten sind (Long-Tail-Verteilung).

Begriff nicht gefunden?

Durchsuchen Sie das gesamte Glossar mit über 1407 Begriffen aus allen Kategorien.

Gesamtes Glossar ansehen