Definicja procesu ETL
Skrót ETL (z języka angielskiego extraction, transformation, loading) oznacza ekstrakcję, transformację i ładowanie danych.
Etl jest procesem, w skład którego wchodzą:
- ekstrakcja danych ze źródła operacyjnego danych (np. SAP, PeopleSoft CRM, inny system ERP). Proces ten determinuje bazowe źródła dla hurtowni danych.
- transformacja danych - etap ten może zawierać czyszczenie danych, filtrowanie oraz implementację reguł biznesowych
- ładowanie danych do hurtowni danych bądź bazy danych będącej repozytorium danych dla aplikacji raportujących.
Bardzo często proces ETL nazywany jest także procesem integracji danych, natomiast narzędzie ETL znane jest jako platforma integracyjna.
Inne terminy związane z ekstrakcją, transformacją i ładowaniem danych to: migracje danych, zarządzanie danymi, czyszczenie danych, testy jakości danych, synchronizacja danych i konsolidacja danych.
W większości przypadków nadrzędnym celem i korzyścią płynącą z posiadania narzędzia ETL w organizacji jest zarządzanie przepływem danych ze źródłowych systemów OLTP do hurtowni danych i zasilenie tematycznych hurtowni danych (data martów).
Najpopularniejsze narzędzia ETL:
- IBM Websphere DataStage (wcześniej Ascential DataStage i Ardent DataStage)
- Oracle Warehouse Builder
- Informatica PowerCenter
- Cognos Decisionstream
- Ab Initio
- BusinessObjects Data Integrator (BODI)
- Microsoft SQL Server Integration Services (SSIS)
- Pentaho Data Integration - Projekt Kettle (open source)
- SAS ETL studio
Implementacje procesu ETL
Przykładowe, rzeczywiste scenariusze implementacji procesu ETL w organizacjach, które poruszają typowe problemy hurtowni danych:
Kurs ETL i hurtowni danych
Szczegółowy kurs implementacji procesu ETL w hurtowni danych za pomocą aplikacji IBM Websphere Datastage można znaleźć tutaj: Kurs Datastage
Na rynku BI pojawiły się w ostatnim czasie również narzędzia open source do przetwarzania danych. Szczególnie polecamy poznać możliwości darmowego narzędzia ETL Pentaho Data Integration