Metadane w hurtowni danych

Metadane w systemie hurtowni danych mają szczególnie ważne znaczenie, gdyż opisują definicje, znaczenie, pochodzenie i identyfikują zależności danych w obrębie hurtowni danych i w powiązaniu z systemami źródłowymi.

W hurtowni danych występują dwa główne typy metadanych: Metadane biznesowe i Metadane Techniczne.
Każdy z tych typów niesie ze sobą nieco odmienne spojrzenie na dane, ale oba są niezbędne w prawidłowym wykorzystaniu systemów hurtowni danych.

Metadane Hurtowni Danych najczęściej są przechowywane w Repozytorium Metadanych, które to jest dostępne dla szerokiego grona użytkowników.

Metadane biznesowe

Metadane biznesowe (metadane operacyjne, z ang. front room metadata) – przechowują definicje biznesowe na temat danych, zawierają ogólne opisy wszystkich wartości występujących w hurtowni danych, z których korzystają użytkownicy. Opisywane powinny być wszystkie informacje z hurtowni danych, tj. tabele wymiarów, faktów, data marty, agregaty.

Głównymi użytkownikami korzystającymi z metadanych biznesowych są: użytkownicy hurtowni danych, autorzy raportów, osoby tworzące kostki OLAP, managerowie danych, testerzy, analitycy biznesowi i techniczni.

Zakres i sposób przechowywania metadanych biznesowych może się znacznie różnić w zależności od organizacji, jednak najczęściej w repozytorium przechowywane są następujące informacje:

  • Nazwa Tabeli Hurtowni Danych
  • Nazwa Kolumny HD
  • Nazwa biznesowa – krótka i opisowa informacja biznesowa
  • Szczegółowa definicja biznesowa pola (kolumny), często zawiera zwięzły opis reguł biznesowych
  • Typ, długość pola i/lub flaga oznaczająca jakieś specjalne właściwości danego wpisu

    Metadane techniczne

    Metadane techniczne (Metadane procesu ETL, Metadane transformacyjne, z ang. back room metadata) reprezentują obraz procesu ETL. Metadane te ukazują mapowania i transformacje danych od systemu źródłowego do systemu docelowego procesu ładowania. Głównie używane przez developerów hurtowni danych, specjalistów procesu ETL, analityków technicznych.

    Należy mieć na uwadze fakt, że nie zawsze da się łatwo i przejrzyście opisać przepływ danych. Z reguły też zapisanie metadanych technicznych wymaga większego wysiłku, gdyż dana wartość może mieć wiele skomplikowanych zależności.
    Niemniej jednak większość narzędzi ETL dostarcza własne repozytorium do przechowywania metadanych wraz z aplikacją zarządzającą tym obszarem.
    Przykładowa struktura bazodanowa opisująca Metadane techniczne może wyglądać następująco:

  • Źródłowa baza danych, plik ekstraktu lub też hurtowni danych
  • Docelowa baza danych (hurtownia danych)
  • Tabele źródłowe (lub pliki)
  • Kolumny (pola) źródłowe
  • Tabela (lub tabele) docelowe HD
  • Kolumna docelowa HD – definicja kolumny powinna być unikalna w repozytorium metadanych, nawet jeżeli występuje w wielu miejscach
  • Transformacja – część opisująca przepływ danych, zawiera zaaplikowane reguły biznesowe i szczegółowy opis kalkulacji i mapowań. Może być uzupełniona w formie graficznej.


    Przykładowe narzędzia wspomagające zarządzanie metadanymi (większość z wymienionych narzędzi to dodatki istniejących aplikacji bazodanowych lub ETL):
  • Teradata Metadata Services
  • Erwin Data modeller
  • Microsoft Repository
  • IBM (Ascential) MetaStage
  • Pentaho Metadata
  • AbInitio EME (Enterpise Metadata Environment)