Legende:
- ❓= Fähigkeit muss auf Machbarkeit geprüft & reviewed werden
Im Folgenden werden die gewünschten Fähigkeiten der Datenfabrik beschrieben.
INFO: Die Datenfabrik und ihre Fähigkeiten befinden sich in diesem frühen Stadium in einem laufenden Bearbeitungsmodus.
Fähigkeiten der Datenfabrik
Datenintegration & -extraktion
- Extrahiert strukturierte und unstrukturierte Daten aus externen Quellen wie APIs, entfernten Datenbanken (anderer Infrastrukturumgebung) oder Fileshares
- ❓Kann eventbasierte Verarbeitung umsetzen
- ❓ ggf. etwas einschränken mit potenziellem Ausbau
- Unterstützt den Zugriff auf hybride Infrastrukturumgebungen (On-Prem Dataport, Cloud, etc.)
- Flexible Erweiterung des Extract-Layers möglich (z. B. neue Konnektoren, Mapping-Regeln)
Einheitliche Tool- und Entwicklungsumgebung
- Einheitliche Toolchain für Datenverarbeitung nach Best Practices (Airflow, dbt, Pandas, etc.)
- Bereitstellung von Entwicklungsstandards & Best Practices für Datenpipelines
- Beratung & Unterstützung anderer (Daten-)Projekten bei Nutzung dieser Tools mit der Datenfabrik
Data Mapping & Harmonisierung
❓: Geteilte Verantwortlichkeit bei "Operator Datenfabrik" UND bei Projektauftraggeber
- Unterstützung heterogener Datenquellen durch Data Mapper, der automatisch ähnliche Datenstrukturen erkennt und abgleicht
- ❓: Nutzung von generativer KI/ML, um Vorschläge für Feld-Mappings zu generieren (z. B. bei Datenexporten mit unterschiedlichen Spaltennamen)
- Human-in-the-Loop-Verfahren zur Validierung
Data Apps (Use-Case-spezifisch)
- Umsetzung kleiner datengetriebener Use Cases mit:
- Backend (z. B. Datenpipelines + API)
- Frontend (Dashboard oder Web-App zur Darstellung/Interaktion)
- Schnell realisierbare, gekapselte Lösungen für einzelne Fachbereiche
Data Product's & APIs
- Daten können als standardisierte Data Products angeboten werden
- Bereitstellung über Schnittstellen (z.B. REST APIs) zur Wiederverwendung durch andere Projekte oder Systeme
Datenfabrik-as-a-Service
- Projekte können Datenextraktion & -verarbeitung „outsourcen“
- Die Datenfabrik betreibt Pipelines zentral, die Ergebnisse werden in projektinterne Systeme geliefert (Push oder Pull)
- Projekte konsumieren lediglich das Ergebnis – keine eigene Infrastruktur für Datenprozessierung notwendig (Data Product)
Self-Service & Visualisierung für technisches Personal
- Nutzer können sich über Apache Superset einfache Visualisierungen selbst zusammenstellen (SQL Self-Service)
- Direkter Zugriff auf definierte Views, Tabellen oder gecachte Datenprodukte je Teams
Dokumentation & Open Code
- Automatische Dokumentation von Datenquellen, Pipelines und Transformationen
- Wiederverwendbarkeit von bestehenden Implementierungen (Templates) sollen gefördert werden, damit die Entwicklungszeit verkürzt werden kann
- Möglichkeit lokaler Nachstellungen durch Entwickler / Data Engineer möglich. Entsprechende Schritte sind dokumentiert und veröffentlicht
- Public Open Source Gedanke, sodass Konzepte der Datenfabrik kontinuierlich verbessert und adaptiert werden können
- Open Source Setup ermöglicht Ausrollen der "Datenfabrik-Infrastruktur" in jedem Rechenzentrum oder Cloud-Provider
Qualität & Nachvollziehbarkeit
- Logging & Alerting für fehlerhafte Daten-Pipelines durch den Datenfabrik-Operator
- ❓Data Lineage: Rückverfolgbarkeit von Datenflüssen
- ❓Hat Relevanz zu einem späteren Entwicklungszeitpunkt
Sicherheit & Governance
- Zugriffskontrollen via zentralen IAM (z. B. rollenbasierter Zugriff in Superset, Airflow, Data Apps, Git-Repos)
- Keycloak SH (oder temporär Keycloak Datenfabrik)
- Multi-Mandanten-Fähigkeit
- Ermöglicht mehreren Projekten unterschiedlicher Fachbereiche die gleichzeitige Nutzung der Infrastruktur bei strikter Daten- und Zugriffstrennung
- Ressourcen Isolation der Datenpipelines und Datenhaltung
- Audit-Logs
- ❓Unterstützung bei Datenschutz- und Compliance Fragestellungen