Dokumentation eines ETL Prozesses

Überblick

Bei der Entwicklung eines ETL-Prozesses sind häufig Daten aus unterschiedlichen Datenquellen zu bearbeiten, zu transformieren und in die Struktur des Zielsystems zu überführen. Die Transformation der Daten ist alles andere als trivial, da die Datenstrukturen und Stammdaten der Quellen in der Regel fundamental von den Strukturen und Stammdaten des Zielsystems abweichen. Es gibt zahlreiche datengetriebene Herausforderungen, die zu berücksichtigen sind:

  • Unzureichende Identifizierer
  • Mangelhafte Daten Integrität
  • Inkompatible Datentypen
  • Geschäftsregeln

Unzureichende Kenntnisse über diese Punkte führen in der Regel zu Problemen mit dem ETL-Prozess und schlimmstenfalls zu schlechten Daten in dem Zielsystem.

Am Ende gibt es nur die Option, sich das Medium, mit dem der Entwickler arbeitet – also die Daten und die Datenstrukturen sowohl in den Quellen als auch dem Ziel – genauer anzuschauen, sie zu analysieren und zu dokumentieren. Nur dann, wenn beide Seiten hinreichend bekannt sind, und die oben genannten Herausforderungen klar bewertet werden können, kann ein belastbarer ETL Prozess entwickelt werden. So banal diese Forderung klingt, so schwierig ist sie umzusetzen.

Mit dieser Artikel-Serie möchte ich einige Anregungen für eine geeignete Analyse der Daten, die Dokumentation bzw. Spezifikation und die Integration einer Spezifikation in den Entwicklungsprozess geben.

  • Datenquellen kennen
  • Daten analysieren
  • Datenstrukturen dokumentieren – Das Tooling
  • Das Kimball Sheet
  • Integration des Kimball Sheets in den Entwicklungsprozess