Data mining
Data mining (eksploracja danych, drążenie danych, wydobywanie danych) jest dziedziną polegającą na wykorzystaniu dedykowanego narzędzia do zarządzania informacją w celu pozyskania wiedzy i odkrycia zależności między danymi na potrzeby wsparcia procesu podejmowania decyzji.
Eksploracja danych to metodyka odkrycia powtarzalnych zachowań w dużych zbiorach danych poprzez drążenie danych, dopasowywanie różnych modeli i analizę zależności między nimi.
Informacja wydobyta za pomocą narzędzia data miningowego może zostać użyta w takich obszarach organizacji jak: wsparcie procesu podejmowania decyzji, prognozowanie, analiza finansowa i analiza ryzyka, optymalizacja.
Przykładowe obszary wykorzystania narzędzi data mining w rzeczywistych środowiskach hurtowni danych:
CRM – wsparcie procesu grupowania klientów i kampanii wspierających procesy zarządzania relacjami z klientami
Analiza ruchu sieciowego WWW – prognozy zachowań gości odwiedzających strony , dopasowywanie kontentu strony do danej grupy użytkowników
Organizacje sektora publicznego mogę używać narzędzi data mining do wykrywania przestępstw podatkowych, ognisk prania brudnych pieniędzy, wspierać walkę z terrorystami, itp.
Badania genetyczne – analiza i odkrywanie zależności w wielkich zbiorach danych
Najszerzej używane techniki eksploracji danych datamining:
Modelowanie statystyczne, skomplikowane równania matematyczne. Najpopularniejsze modele statystyczne: modele liniowe, modele regresji, analiza dyskryminacyjna.
Drzewa decyzyjne
Sieci neuronowe
Algorytmy genetyczne
Narzędzia drążenia danych oferują wiele różnorodnych technik analizy danych:
Manipulacja danymi – czyli konstruowanie nowych zbiorów danych bazujących na istniejących źródłach.
Przeglądanie, obserwacja i wizualizacja danych, która pomaga odkrywać nietypowe, podejrzane związki pomiędzy zmiennymi.
Testowanie hipotez
Najczęściej wykorzystywane narzędzia dataminingowe:
SPSS Clementine
SAS Enterprise Miner
IBM DB2 Intelligent Miner
STATISTICA Data Miner
Pentaho Data Mining (WEKA)
Isoft Alice