Legende:

  • ❓= Fähigkeit muss auf Machbarkeit geprüft & reviewed werden

Im Folgenden werden die gewünschten Fähigkeiten der Datenfabrik beschrieben.

INFO: Die Datenfabrik und ihre Fähigkeiten befinden sich in diesem frühen Stadium in einem laufenden Bearbeitungsmodus.


Fähigkeiten der Datenfabrik

Datenintegration & -extraktion

  • Extrahiert strukturierte und unstrukturierte Daten aus externen Quellen wie APIs, entfernten Datenbanken (anderer Infrastrukturumgebung) oder Fileshares
  • ❓Kann eventbasierte Verarbeitung umsetzen
    • ❓ ggf. etwas einschränken mit potenziellem Ausbau
  • Unterstützt den Zugriff auf hybride Infrastrukturumgebungen (On-Prem Dataport, Cloud, etc.)
  • Flexible Erweiterung des Extract-Layers möglich (z. B. neue Konnektoren, Mapping-Regeln)

Einheitliche Tool- und Entwicklungsumgebung

  • Einheitliche Toolchain für Datenverarbeitung nach Best Practices (Airflow, dbt, Pandas, etc.)
  • Bereitstellung von Entwicklungsstandards & Best Practices für Datenpipelines
  • Beratung & Unterstützung anderer (Daten-)Projekten bei Nutzung dieser Tools mit der Datenfabrik

Data Mapping & Harmonisierung

❓: Geteilte Verantwortlichkeit bei "Operator Datenfabrik" UND bei Projektauftraggeber

  • Unterstützung heterogener Datenquellen durch Data Mapper, der automatisch ähnliche Datenstrukturen erkennt und abgleicht
  • ❓: Nutzung von generativer KI/ML, um Vorschläge für Feld-Mappings zu generieren (z. B. bei Datenexporten mit unterschiedlichen Spaltennamen)
  • Human-in-the-Loop-Verfahren zur Validierung

Data Apps (Use-Case-spezifisch)

  • Umsetzung kleiner datengetriebener Use Cases mit:
    • Backend (z. B. Datenpipelines + API)
    • Frontend (Dashboard oder Web-App zur Darstellung/Interaktion)
  • Schnell realisierbare, gekapselte Lösungen für einzelne Fachbereiche

Data Product's & APIs

  • Daten können als standardisierte Data Products angeboten werden
  • Bereitstellung über Schnittstellen (z.B. REST APIs) zur Wiederverwendung durch andere Projekte oder Systeme

Datenfabrik-as-a-Service

  • Projekte können Datenextraktion & -verarbeitung „outsourcen“
  • Die Datenfabrik betreibt Pipelines zentral, die Ergebnisse werden in projektinterne Systeme geliefert (Push oder Pull)
  • Projekte konsumieren lediglich das Ergebnis – keine eigene Infrastruktur für Datenprozessierung notwendig (Data Product)

Self-Service & Visualisierung für technisches Personal

  • Nutzer können sich über Apache Superset einfache Visualisierungen selbst zusammenstellen (SQL Self-Service)
  • Direkter Zugriff auf definierte Views, Tabellen oder gecachte Datenprodukte je Teams

Dokumentation & Open Code

  • Automatische Dokumentation von Datenquellen, Pipelines und Transformationen
  • Wiederverwendbarkeit von bestehenden Implementierungen (Templates) sollen gefördert werden, damit die Entwicklungszeit verkürzt werden kann
  • Möglichkeit lokaler Nachstellungen durch Entwickler / Data Engineer möglich. Entsprechende Schritte sind dokumentiert und veröffentlicht
  • Public Open Source Gedanke, sodass Konzepte der Datenfabrik kontinuierlich verbessert und adaptiert werden können
  • Open Source Setup ermöglicht Ausrollen der "Datenfabrik-Infrastruktur" in jedem Rechenzentrum oder Cloud-Provider

Qualität & Nachvollziehbarkeit

  • Logging & Alerting für fehlerhafte Daten-Pipelines durch den Datenfabrik-Operator
  • ❓Data Lineage: Rückverfolgbarkeit von Datenflüssen
    • ❓Hat Relevanz zu einem späteren Entwicklungszeitpunkt

Sicherheit & Governance

  • Zugriffskontrollen via zentralen IAM (z. B. rollenbasierter Zugriff in Superset, Airflow, Data Apps, Git-Repos)
    • Keycloak SH (oder temporär Keycloak Datenfabrik)
  • Multi-Mandanten-Fähigkeit
    • Ermöglicht mehreren Projekten unterschiedlicher Fachbereiche die gleichzeitige Nutzung der Infrastruktur bei strikter Daten- und Zugriffstrennung
    • Ressourcen Isolation der Datenpipelines und Datenhaltung
  • Audit-Logs
  • ❓Unterstützung bei Datenschutz- und Compliance Fragestellungen