Legende:

Im Folgenden werden die gewünschten Fähigkeiten der Datenfabrik beschrieben.

INFO: Die Datenfabrik und ihre Fähigkeiten befinden sich in diesem frühen Stadium in einem laufenden Bearbeitungsmodus.

Fähigkeiten der Datenfabrik

Extrahiert strukturierte und unstrukturierte Daten aus externen Quellen wie APIs, entfernten Datenbanken (anderer Infrastrukturumgebung) oder Fileshares
❓Kann eventbasierte Verarbeitung umsetzen
- ❓ ggf. etwas einschränken mit potenziellem Ausbau
Unterstützt den Zugriff auf hybride Infrastrukturumgebungen (On-Prem Dataport, Cloud, etc.)
Flexible Erweiterung des Extract-Layers möglich (z. B. neue Konnektoren, Mapping-Regeln)

Einheitliche Toolchain für Datenverarbeitung nach Best Practices (Airflow, dbt, Pandas, etc.)
Bereitstellung von Entwicklungsstandards & Best Practices für Datenpipelines
Beratung & Unterstützung anderer (Daten-)Projekten bei Nutzung dieser Tools mit der Datenfabrik

❓: Geteilte Verantwortlichkeit bei "Operator Datenfabrik" UND bei Projektauftraggeber

Unterstützung heterogener Datenquellen durch Data Mapper, der automatisch ähnliche Datenstrukturen erkennt und abgleicht
❓: Nutzung von generativer KI/ML, um Vorschläge für Feld-Mappings zu generieren (z. B. bei Datenexporten mit unterschiedlichen Spaltennamen)
Human-in-the-Loop-Verfahren zur Validierung

Umsetzung kleiner datengetriebener Use Cases mit:
- Backend (z. B. Datenpipelines + API)
- Frontend (Dashboard oder Web-App zur Darstellung/Interaktion)
Schnell realisierbare, gekapselte Lösungen für einzelne Fachbereiche

Daten können als standardisierte Data Products angeboten werden
Bereitstellung über Schnittstellen (z.B. REST APIs) zur Wiederverwendung durch andere Projekte oder Systeme

Projekte können Datenextraktion & -verarbeitung „outsourcen“
Die Datenfabrik betreibt Pipelines zentral, die Ergebnisse werden in projektinterne Systeme geliefert (Push oder Pull)
Projekte konsumieren lediglich das Ergebnis – keine eigene Infrastruktur für Datenprozessierung notwendig (Data Product)

Nutzer können sich über Apache Superset einfache Visualisierungen selbst zusammenstellen (SQL Self-Service)
Direkter Zugriff auf definierte Views, Tabellen oder gecachte Datenprodukte je Teams

Automatische Dokumentation von Datenquellen, Pipelines und Transformationen
Wiederverwendbarkeit von bestehenden Implementierungen (Templates) sollen gefördert werden, damit die Entwicklungszeit verkürzt werden kann
Möglichkeit lokaler Nachstellungen durch Entwickler / Data Engineer möglich. Entsprechende Schritte sind dokumentiert und veröffentlicht
Public Open Source Gedanke, sodass Konzepte der Datenfabrik kontinuierlich verbessert und adaptiert werden können
Open Source Setup ermöglicht Ausrollen der "Datenfabrik-Infrastruktur" in jedem Rechenzentrum oder Cloud-Provider

Logging & Alerting für fehlerhafte Daten-Pipelines durch den Datenfabrik-Operator
❓Data Lineage: Rückverfolgbarkeit von Datenflüssen
- ❓Hat Relevanz zu einem späteren Entwicklungszeitpunkt

Zugriffskontrollen via zentralen IAM (z. B. rollenbasierter Zugriff in Superset, Airflow, Data Apps, Git-Repos)
- Keycloak SH (oder temporär Keycloak Datenfabrik)
Multi-Mandanten-Fähigkeit
- Ermöglicht mehreren Projekten unterschiedlicher Fachbereiche die gleichzeitige Nutzung der Infrastruktur bei strikter Daten- und Zugriffstrennung
- Ressourcen Isolation der Datenpipelines und Datenhaltung
Audit-Logs
❓Unterstützung bei Datenschutz- und Compliance Fragestellungen