Metadane w hurtowni danych
Metadane w systemie hurtowni danych mają szczególnie ważne znaczenie, gdyż opisują definicje, znaczenie, pochodzenie i identyfikują zależności danych w obrębie hurtowni danych i w powiązaniu z systemami źródłowymi.
W hurtowni danych występują dwa główne typy metadanych: Metadane biznesowe i Metadane Techniczne.
Każdy z tych typów niesie ze sobą nieco odmienne spojrzenie na dane, ale oba są niezbędne w prawidłowym wykorzystaniu systemów hurtowni danych.
Metadane Hurtowni Danych najczęściej są przechowywane w Repozytorium Metadanych, które to jest dostępne dla szerokiego grona użytkowników.
Metadane biznesowe
Metadane biznesowe (metadane operacyjne, z ang. front room metadata) – przechowują definicje biznesowe na temat danych, zawierają ogólne opisy wszystkich wartości występujących w hurtowni danych, z których korzystają użytkownicy. Opisywane powinny być wszystkie informacje z hurtowni danych, tj. tabele wymiarów, faktów, data marty, agregaty.
Głównymi użytkownikami korzystającymi z metadanych biznesowych są: użytkownicy hurtowni danych, autorzy raportów, osoby tworzące kostki OLAP, managerowie danych, testerzy, analitycy biznesowi i techniczni.
Zakres i sposób przechowywania metadanych biznesowych może się znacznie różnić w zależności od organizacji, jednak najczęściej w repozytorium przechowywane są następujące informacje:
Nazwa Tabeli Hurtowni Danych
Nazwa Kolumny HD
Nazwa biznesowa – krótka i opisowa informacja biznesowa
Szczegółowa definicja biznesowa pola (kolumny), często zawiera zwięzły opis reguł biznesowych
Typ, długość pola i/lub flaga oznaczająca jakieś specjalne właściwości danego wpisu
Metadane techniczne
Metadane techniczne (Metadane procesu ETL, Metadane transformacyjne, z ang. back room metadata) reprezentują obraz procesu ETL. Metadane te ukazują mapowania i transformacje danych od systemu źródłowego do systemu docelowego procesu ładowania. Głównie używane przez developerów hurtowni danych, specjalistów procesu ETL, analityków technicznych.
Należy mieć na uwadze fakt, że nie zawsze da się łatwo i przejrzyście opisać przepływ danych. Z reguły też zapisanie metadanych technicznych wymaga większego wysiłku, gdyż dana wartość może mieć wiele skomplikowanych zależności.
Niemniej jednak większość narzędzi ETL dostarcza własne repozytorium do przechowywania metadanych wraz z aplikacją zarządzającą tym obszarem.
Przykładowa struktura bazodanowa opisująca Metadane techniczne może wyglądać następująco:
Źródłowa baza danych, plik ekstraktu lub też hurtowni danych
Docelowa baza danych (hurtownia danych)
Tabele źródłowe (lub pliki)
Kolumny (pola) źródłowe
Tabela (lub tabele) docelowe HD
Kolumna docelowa HD – definicja kolumny powinna być unikalna w repozytorium metadanych, nawet jeżeli występuje w wielu miejscach
Transformacja – część opisująca przepływ danych, zawiera zaaplikowane reguły biznesowe i szczegółowy opis kalkulacji i mapowań. Może być uzupełniona w formie graficznej.
Przykładowe narzędzia wspomagające zarządzanie metadanymi (większość z wymienionych narzędzi to dodatki istniejących aplikacji bazodanowych lub ETL):
Teradata Metadata Services
Erwin Data modeller
Microsoft Repository
IBM (Ascential) MetaStage
Pentaho Metadata
AbInitio EME (Enterpise Metadata Environment)
|