Łączenie i wyszukiwanie danych w Datastage



Dane w Datastage mogą być wyszukiwane (łączone) z pliku haszowanego (hashed file) lub z bazy danych za pomocą ODBC lub ORACLE stage. Wyszukiwanie i łączenie danych jest zarządzane przez transformer
Plik haszowany to tabela referencyjna oparta na kluczu głównym, którego architektura sprawia, że może on być przeszukiwany w szybki i wydajny sposób. Pliki haszowane są przede wszystkim używane do przechowywania danych tymczasowych i często danych stałych. Jedną z zalet stosowania plików haszowanych jest fakt, że są one przechowywane lokalnie na serwerze Datastage, co sprawia, że mogą znacznie przyspieszyć przetwarzanie w środowisku rozproszonym, gdy połączenie sieciowe nie jest zbyt szybkie.
Dla zwiększenia wydajności odczytu plik haszowany może być załadowany do pamięci operacyjnej (opcja preload into memory), natomiast dla zwiększenia wydajności zapisu obsługuje on pamięć podręczną (opcja enable write-cache).

Istnieją również sytuacje, gdy ładowanie tabel z danymi do pliku haszowanego jest znacznie bardziej czasochłonne niż wysłanie zapytania bezpośrednio do bazy danych za pomocą ODBC lub Oracle stage. Sytuacje takie występują często gdy istnieje potrzeba dostępu do bardziej złożonych danych, np. gdy muszą one być grupowane, pobierane z wielu tabel źródłowych lub przetwarzane w sposób nietypowy.

Przykłady wykorzystania plików haszowanych i wyszukiwania oraz łączenia danych w datastage.

W transformerze poniżej pokazane zostało łączenie danych ze słownikiem krajów załadowanym do pliku haszowanego. Jeżeli kraj zostanie znaleziony, jest on zapisywany do prawej kolumny, jeżeli nie, to generowany jest łańcuch znaków "not found".

Transformer datastage
Transformer datastage