SSIS vs. SQL – Lesbarkeit/Wartbarkeit -oder- Wie viel SQL darf's denn sein?

Die Vorgeschichte zu diesem Artikel…

SQL Server Integration Services (SSIS) ist ein äußerst mächtiges Tool Set für die Entwicklung von ETL-Strecken. Es gibt viele gute Gründe, die für einen Einsatz von SSIS sprechen. Es gibt derer aber auch genügend, die dagegen sprechen. Beschränken wir uns auf den Microsoft Produkt Stack, dann kommt als Alternative für die Entwicklung von komplexen ETL Strecken (im Wesentlichen) nur noch Transact-SQL (T-SQL) in Frage.

Dieser Artikel gehört zu einer Serie von Artikeln, die wichtige Entscheidungskriterien für die Wahl der richtigen Technologie(n) – SSIS und/oder T-SQL – beleuchten.

—

Mit Blick auf die Verwendung einer Quellcodeverwaltung habe ich in dem Artikel SSIS vs. Transact-SQL – Quellcodeverwaltung die Vorteile der Verwendung von SQL Skripten (und hier SQL Server Stored Procedures), etc. gegenüber SSIS herausgestellt. Die Änderungen in einer Stored Procedure können leicht durch Vergleich zweier Versionen in Visual Studio dargestellt werden. Ein ähnlicher Vergleich zweier Versionen eines SQL Server Integration Services (SSIS) Paketes zeigt selbst bei minimalen Änderungen bereits eine unübersichtliche Anzahl an Änderungen in dem zugrundeliegenden Dokumententyp dtsx. Damit scheint es schier unmöglich die Änderung zweier Versionen zu identifizieren.

In dem erwähnten Artikel habe ich über ein T-SQL Statement die Hierarchie-Ebenen der Mitarbeiter aus der Tabelle [AdventureWorksDW2017].[DimEmployee] abgeleitet, um anschließend auf der Basis der gefundenen Hierarchie-Ebenen 1 bis 5 ein Ranking der Urlaubs- und Krankheitsstunden zu ermitteln. Die Ermittlung sollte jeweils über die Windowed Function NTILE() und DENSE_RANK() erfolgen. Die Klassifizierung der Mitarbeiter über die NTILE-Funktion sollte 3 Klassen ergeben.

Die Bearbeitung der Aufgabe mit T-SQL hat nur wenigen Minuten entwickelt. Common Table Expressions (CTE) unterstützen rekursive Aufrufe und das Ranking konnte schnell über die die Windowed Function ermittelt werden.

Um die Verwendung von T-SQL Prozeduren/Skripten mit Blick auf die Quellcodeverwaltung der Verwendung von SSIS Paketen gegenüberstellen zu können, wollte ich ein “inhaltsgleiches” SSIS Paket entwickeln. Ich habe mich der naiven Vorstellung hingegeben, dass diese Aufgabe zwar mit etwas mehr zeitlichem Aufwand zu lösen ist, aber immerhin mit einem vertretbaren Aufwand lösbar ist.

Weit gefehlt!

Für die beiden wesentlichen Anforderungen gibt es meines Wissens keine einfache Lösung, geschweige denn Standard Tasks oder Funktionen, die in einer Expression verwendet werden könnten.

Rekursive Ermittlung der Hierarchie-Ebenen
Ermittlung des Rankings

Einen einfachen Lösungsweg für die rekursive Ermittlung der Hierarchie-Ebenen habe ich weder in den Untiefen einschlägiger Blogs gefunden noch selbst auf die “Schnelle” ableiten können. Versuche, das Ranking gemäß der Funktion NTILE() über eine Expression zu ermitteln, habe ich schnell aufgegeben und diesen Teil der Aufgabe schließlich über Skript-Tasks gelöst. Das Ergebnis ist der trotz der Komplexität des entwickelten Artefakts – wie ich finde – recht übersichtlich. Es ist aber eine statische Lösung und sie ist auf 5 Hierarchieebenen beschränkt.

Zwischendurch blitzte dann immer wieder die Frage auf… warum hast Du das relevante SQL Statement nicht in die OLEDB SRC-Datasource Task gepackt: Wieviel SQL darf’s denn sein?

In diesem Artikel werden drei Lösungsansätze mit Blick auf diese Fragestellung beschrieben und verglichen:

Komplexes SQL in einer Stored Procedure
Ausgangspunkt ist eine Stored Procedure, die das Ergebnis eines SELECT Statement in eine Ziel-Tabelle schreibt. Die Stored Procedure wird von einer SQL Task im Control Flow eines SSIS Paketes aufgerufen. Ein Control Flow, sonst nichts.
Komplexes SQL in einer Data Source Task
Das SQL Statement kann alternativ auch in der Data Source Task eines SSIS Data Flows platziert werden, gefolgt von einer Destination Task, um die Daten in die Ziel-Tabelle zu schreiben. Die Lösung enthält einen Control Flow, einen Data Flow und zwei Data Flow Tasks.
Einfaches SQL in einer Data Source Task
Die extreme Alternative ohne SQL (außer eines einfachen SELECTs in der Data Source Task) hat in der von mir entwickelten Variante eine “temporäre” Tabelle zum Zwischenspeichern des Ergebnisses, einen Control Flow, 2 Data Flows und zahlreiche Data Flow-Tasks, die darüber hinaus mit nicht ganz einfachen Conditional Splits und Precedence Constraints verknüpft sind.

Diese drei Alternativen werden in diesem Artikel unter den folgenden Gesichtspunkten bewertet:

Dauer der Entwicklung
Lesbarkeit
Wartbarkeit
Performance
Funktionsumfang

Die drei Lösungsansätze

Zunächst werden die drei Lösungen vorgestellt. Alle Lösungen wurden mit Microsoft Visual Studio 2017 und SQL Server 2017 entwickelt.

Komplexes SQL in einer Stored Procedure

Diese Lösung basiert auf einem komplexen SQL Statement, das die Daten in die Zieltabelle [dbo].[post00210001] schreibt. Basis des Statements ist die rekursive Verwendung einer CTE für die Berechnung der Hierarchie-Ebenen. Dem Statement vorangestellt ist eine TRUNCATE-Anweisung, um die Zieltabelle vor dem INSERT zu leeren. Der Name der Prozedur lautet [dbo].[spInsertpost0021]. Die Prozedur wird schließlich in SSIS in dem Paket über eine Execute SQL Task aufgerufen.

Source

Komplexes SQL in einer Data Source Task

Die zweite Lösung basiert auf einem SSIS Data Flow, der nichts anderes enthält als eine OLE-DB Source Task sowie eine OLE-DB Destination Task.

Die OLE-DB Source Task definiert die Datenquelle als SQL Statement… eben das oben erwähnte komplexe SQL Statement aus der Prozedur [dbo].[spInsertPost0021], jedoch ohne den INSERT INTO Part des Statements.

Es werden keine weiteren Transformationen in dem Data Flow durchgeführt.

Einfaches SQL in einer Data Source Task

Die dritte Lösung verwendet ausschließlich SSIS Tasks für die Berechnung der Hierarchie-Ebenen sowie des Rankings. Die gewählte Lösung beinhaltet einen Control Flow, zwei Data Flows und zwei Tabellen. Der Control Flow enthält 2 SQL Tasks sowie 2 Data Flow Tasks mit den folgenden Aufgaben:

0500 SQL Truncate Table
Diese Task löscht die beiden temporären Tabellen, die für die Lösung benötigt werden: [dbo].[post00210003] und [dbo].[post00210004].
1000 DFT Calculate Levels
Dieser Data Flow berechnet zu jedem Mitarbeiter den Hierarchielevel. Die Berechnung ist nicht generisch und auf die 5 enthaltenen Hierarchielevel begrenzt.
2000 SQL Level Counts
Für die Berechnung des Rankings gemäß der Windowed Function NTILE() ist es erforderlich, die Anzahl der Mitarbeiter je Hierarchielevel zu kennen. Diese SQL Task führt 5 SELECT Statements aus, um die Anzahl der Mitarbeiter je Level zu ermitteln und in hierfür vorgesehenen Variablen zu speichern.
3000 DFT Calculate Ranking
Der zweite Data Flow ermittelt schließlich das Ranking mit Hilfe von Skript Tasks und speichert das Endergebnis in der Zieltabelle [dbo].[post00210004].

Controlflow

1000 DFT Calculate Levels

Die Datenquelle 1000 OLEDB Source enthält ein einfaches SQL Statement ohne weitere Berechnungen.

3000 DFT Caculate Ranking

Bewertung