Was ist Azure Data Factory?

Azure Data Factory (ADF) ist ein vollständig verwalteter, cloudnativer Datenintegrationsdienst von Microsoft, der es Unternehmen ermöglicht, Datenpipelines zur Erfassung, Transformation und Bereitstellung großer Datenmengen aus heterogenen Quellen zu erstellen – ohne eigene Serverinfrastruktur betreiben zu müssen.

Unternehmen generieren heute Daten in einer Geschwindigkeit und Vielfalt, die klassische Integrationswerkzeuge an ihre Grenzen bringt. Relationale Datenbanken, Cloud-Applikationen, IoT-Sensoren, SaaS-Plattformen und On-Premises-Systeme müssen zusammengeführt werden, um belastbare Analysen zu ermöglichen. Genau hier setzt Azure Data Factory an: als zentrales Orchestrierungswerkzeug innerhalb der Microsoft Azure Data Platform.

Wie funktioniert Azure Data Factory?

Azure Data Factory realisiert im Kern die Orchestrierung von Datenpipelines. Eine Pipeline ist eine logische Gruppe von Aktivitäten, die in einer definierten Reihenfolge oder parallel ausgeführt werden. Aktivitäten können Operation zum Kopieren von Daten, Transformationsschritte, externe Aufrufe oder Kontrollflussoperationen sein. Der Dienst selbst ist serverlos: Microsoft übernimmt die Verwaltung der Infrastruktur, Skalierung und Verfügbarkeit. 

Gesteuert werden Pipelines über sogenannte Trigger – zeitbasierte Planungen, ereignisbasierte Auslöser (z. B. Dateiablage in Azure Blob Storage) oder manuelle Starts. Das Ergebnis einer Pipeline kann in ein Zielsystem wie Azure Synapse Analytics, ein Data Warehouse, einen Data Lake oder eine relationale Datenbank geschrieben werden.

Kernkomponenten im Überblick

  1. Linked Services: Verbindungskonfigurationen zu Quell- und Zielsystemen – vergleichbar mit einem Verbindungsstring in der klassischen ETL-Welt.
  2. Datasets: Abstraktion der Datenstruktur in einem Linked Service, z. B. eine bestimmte Tabelle, ein Ordner oder eine API-Ressource.
  3. Aktivitäten: Einzelne Schritte innerhalb einer Pipeline: Copy Activity, Data Flow, Stored Procedure, Azure Function-Aufruf u. v. m.
  4. Integration Runtime: Recheninfrastruktur, über die ADF Aktivitäten ausführt – als Azure-IR, Self-hosted IR (für On-Premises) oder SSIS-IR.
  5. Data Flows: Visuell gestaltete Transformationslogik, die ohne Codezeilen in Spark-Clustern auf ADF ausgeführt wird.
  6. Trigger: Zeitbasierte, ereignisgesteuerte oder Tumbling-Window-Trigger starten Pipelines automatisiert.

ETL vs. ELT mit Azure Data Factory

Traditionell folgte Datenintegration dem ETL-Muster (Extract → Transform → Load): Daten werden an einer Zwischenstation transformiert, bevor sie ins Zielsystem gelangen. Dieses Modell war oft durch die Kapazitätsgrenzen des Transformations-Servers beschränkt.

Azure Data Factory unterstützt daneben das moderne ELT-Muster (Extract → Load → Transform): Rohdaten werden zunächst unverändert in einem Data Lake oder Data Warehouse abgelegt und erst dort transformiert – mit der vollen Rechenleistung von Azure Synapse Analytics, Databricks oder Azure SQL. Das ELT-Modell ist für Big-Data-Szenarien besser geeignet, weil die Transformation horizontal skaliert.

Praxistipp: Für Echtzeitszenarien empfiehlt sich die Kombination von Azure Data Factory (Batch-Orchestrierung) mit Azure Event Hubs oder Azure Stream Analytics (Streaming-Ingestion). ADF deckt dabei den regelmäßigen Daten-Nachlade-Prozess ab, während Streaming-Dienste kontinuierliche Datenströme verarbeiten.

Konnektoren und unterstützte Datenquellen

Einer der größten Vorteile von Azure Data Factory ist seine breite Konnektivität. Über mehr als 90 native Konnektoren lassen sich Daten aus unterschiedlichsten Systemen integrieren – sowohl in der Cloud als auch On-Premises.

Für Quellen ohne nativen Konnektor stehen generische REST- und HTTP-Konnektoren zur Verfügung. Eigene Transformationslogik kann außerdem über Azure Functions, Databricks Notebooks oder benutzerdefinierte Aktivitäten eingebunden werden.

Eine tabellarische Übersicht für Azure Data Factory welche Konnektoren welche Daten aus den jeweiligen Quellsystemen integrieren

Typische Anwendungsfälle von Azure Data Factory

  1. Zentrales Laden eines Data Lakes oder Data Warehouses: Azure Data Factory ist die Standardlösung, um Daten aus operativen Systemen regelmäßig in ein zentrales Data-Lake- oder Warehouse-System zu überführen. Dabei können inkrementelle Ladevorgänge (Delta-Loading) konfiguriert werden, die nur geänderte Datensätze übertragen – ein entscheidender Faktor für die Effizienz bei großen Datenvolumen.
  2. Migration von SSIS-Paketen in die Cloud: Unternehmen, die SQL Server Integration Services (SSIS) für ihre Datenpipelines nutzen, können bestehende Pakete über die SSIS Integration Runtime in Azure Data Factory ausführen, ohne sie sofort neu schreiben zu müssen. Dies ermöglicht einen schrittweisen Übergang in die Cloud ohne großen Aufwand.
  3. Hybride Datenintegration: Die Self-hosted Integration Runtime erlaubt es, Daten aus On-Premises-Systemen hinter Firewalls abzurufen und sicher in die Azure-Cloud zu übertragen. Damit überbrückt ADF die Lücke zwischen bestehender lokaler IT-Infrastruktur und moderner Cloud-Plattform.
  4. Orchestrierung komplexer Analyseworkflows: Azure Data Factory bietet weit mehr als bloße Kopierfunktionen, sondern dient heute vor allem als übergeordnetes Werkzeug zur Orchestrierung: Es kann Azure Databricks-Jobs anstoßen, Machine-Learning-Pipelines in Azure Machine Learning auslösen oder Stored Procedures in Azure Synapse aufrufen – und all das abhängig von Bedingungen, Schleifen und Fehlerbehandlungslogik.

Azure Data Factory und Microsoft Fabric

Mit der Einführung von Microsoft Fabric hat Microsoft seine Vision für Datenplattformen weiterentwickelt: Fabric vereint Datenintegration, Data Engineering, Data Science und BI in einem einheitlichen Software-as-a-Service-Angebot (SaaS). Die Funktionen zur Datenintegration in Microsoft Fabric basieren auf derselben Engine wie Azure Data Factory und werden dort als Data Factory in Microsoft Fabric bezeichnet.

Für bestehende ADF-Kunden bedeutet das: Wer heute mit Azure Data Factory arbeitet, profitiert von einer klaren Migration in Richtung Fabric, ohne grundlegendes Konzept-Wissen zu verlieren. Die Erfahrung mit Pipelines, Konnektoren und dem Orchestrierungsmodell sind weitgehend identisch.

Fazit: Wann lohnt sich Azure Data Factory?

Azure Data Factory ist die erste Wahl, wenn Unternehmen auf Microsoft Azure setzen und eine robuste, skalierbare Lösung zur Datenintegration benötigen. Die Kombination aus breiter Konnektivität, serverloser Infrastruktur, visuellem Interface und tiefer Integration in das Azure Ökosystem macht ADF zu einem zentralen Baustein moderner Datenarchitekturen.

Für Teams ohne Python- oder Spark-Kenntnisse ist der Einstieg über die grafische Oberfläche vergleichsweise niedrigschwellig. Gleichzeitig bietet ADF über Data Flows, Databricks-Integration und benutzerdefinierte Aktivitäten ausreichend Tiefe für anspruchsvolle Enterprise-Szenarien.