Back to blog

Czym jest jakość danych i dlaczego ma tak duże znaczenie dla analityki biznesowej?

5 minuty czytania

Czym jest jakość danych i dlaczego ma tak duże znaczenie dla analityki biznesowej?

O jakości mówimy wtedy, gdy wraca do nas klient, a nie produkt” – ta popularna sentencja jest mottem wielu firm i zespołów. Zwróćmy uwagę, że klientem może być Zarząd, Dyrektor Finansowy czy Manager (tzw. klient wewnętrzny). Produkt zaś może stanowić raport czy analiza. Poświęćmy zatem chwilę na omówienie niezwykle ważnego w analityce biznesowej tematu, jakim jest jakość danych. O tym, dlaczego jest ona na tyle istotna. Można bowiem polemizować, czy lepszy jest całkowity brak analityki w określonym obszarze, czy zbiór chaotycznych, błędnych, tzw. “brudnych” danych. Od ich prawidłowości zależy efektywność wykorzystywanych narzędzi czy tworzonych raportów, na podstawie których finalnie podejmowane są decyzje biznesowe.

Jakość danych – mniej znaczy więcej

Czym większa lub dynamiczniej rozwijająca się organizacja, tym więcej źródeł danych, których wzajemna i wewnętrzna spójność ma kluczowe znaczenie dla oceny sytuacji w określonych obszarach. Aby więc uniknąć chaosu informacyjnego, a w konsekwencji podejmowania błędnych decyzji, należy zadbać o właściwe zarządzanie całym procesem – czyli Data Quality Management (DQM).

Rozwój technologiczny sprawił, że możliwości zbierania danych są obecnie wręcz nieograniczone. Firmy starają się dowiedzieć jak najwięcej o swoich klientach, aby móc dostosowywać ofertę czy przewidywać popyt. Działania pracowników są monitorowane, aby zlokalizować tzw. “wąskie gardła” i jak najefektywniej wykorzystywać ich czas. Do tego dochodzą przychody, marżowość oraz inne wskaźniki świadczące o efektywności przedsiębiorstwa. Aby wyciągnąć z tych wszystkich danych wskazówki do podjęcia konkretnych działań, konieczne jest spojrzenie na nie całościowo i identyfikacja KPI, które są najistotniejsze w danym obszarze.

Pracownicy marnują do 50% czasu na nieefektywne wykonywanie zadań związanych z jakością danych

(MIT Sloan)

Zanim jednak zaczniemy analizować konkretne wskaźniki, warto zadać sobie pytanie: czy bazują one na wiarygodnych danych? Zobrazowany powyżej znaczący wolumen gromadzonych i przetwarzanych danych wymaga zarządzania ich jakością. Można to zdefiniować jako zestaw praktyk podejmowanych przez analityków i specjalistów w celu utrzymania nie tylko wiarygodności, ale i wysokiej jakości informacji. Praktyki te stosowane są w trakcie procesu przetwarzania danych: od pozyskania, poprzez wdrożenie, dystrybucję i analizę.

Co decyduje o wysokiej jakości danych?

  • Wiarygodność – możliwość zweryfikowania, czy analizowane dane są prawdziwe.
  • Spójność – synergia poszczególnych elementów, np. analizowanych dwóch zestawów danych z różnych źródeł, ale dotyczących tego samego zagadnienia Spójność może być też rozumiana jako wewnętrzna integralność danych w ramach jednego zestawu (spójność nazewnictwa, sposobu kalkulacji określonych parametrów, etc.)
  • Aktualność – analizowane dane nie mogą być przestarzałe lub niezgodne ze stanem faktycznym.
  • Dokładność – precyzyjne przedstawienie danych odbiorcy, dostosowane do jego oczekiwań i poziomu wiedzy.
  • Kompletność – ujęcie wszystkich elementów składowych oraz brak błędów.
  • Relatywność – istotność danych dla odbiorcy, np. gromadzenie informacji, której celem jest wypracowanie rozwiązania będącego odpowiedzią na zadany problem.

Zarządzanie jakością danych – klucz do sukcesu

Jak jednak zapewnić wysoką jakość danych? Zacznijmy od podstaw – monitorowanie, analiza i raportowanie nie będą mieć sensu, lub wręcz mogą prowadzić do błędnych wniosków, jeśli dane wsadowe nie będą zgodne ze stanem faktycznym i tym samym nie będa wiarygodne. Zweryfikowanie ich poprawności oraz opracowanie procedur ich oczyszczania, oceny czy weryfikacji spójności powinno być zadaniem obowiązkowo poprzedzającym dalszą pracę z danymi.

41% ekspertów w zakresie marketingu B2B wskazuje niespójność danych jako największą przeszkodę w maksymalizacji ROI (zwrotu z inwestycji)

(Dun & Bradstreet)

Aby więc skutecznie zarządzać jakością danych, konieczna jest odpowiednia strategia. Najważniejszymi jej elementami są:

  • wiedza o źródłach danych (gdzie powstają, kto je dostarcza, kto jest ich “właścicielem”, aspekty technologiczne);
  • optymalizacja procedur (automatyzacja, standaryzacja / normalizacja – np. dla zachowania spójności wprowadzanych danych w określonych systemach);
  • stały, proaktywny monitoring i eliminacja / naprawa wadliwych danych wsadowych z baz;
  • wdrożenie procedur zmierzających do zapewnienia czystości danych;
  • sprecyzowanie odpowiedzialności za jakość danych i ich weryfikację.

Higiena baz danych (czystość danych)

Do efektywnego zarządzania danymi w organizacji niezbędne jest zapewnienie czystości danych, do czego nawiązaliśmy w poprzednim akapicie. Teraz rozwiniemy ten wątek o wyjaśnienie, co kryje się pod tym pojęciem oraz jaki jest jego cel.

Jeśli działasz w oparciu o niskiej jakości dane, istnieje duże prawdopodobieństwo, że nie dostarczasz klientom wystarczającej wartości, co może prowadzić do niewykorzystanych szans i utraty przychodów.

Firmy tracą nawet 20% przychodów z powodu złej jakości danych!

(Kissmetrics)

Oczyszczanie danych to wykrywanie i usuwanie lub korekta informacji w bazie danych, w przypadku gdy są one błędne, powielane, niedokładne, nieaktualne, zbędne bądź nieprawidłowo sformatowane. Można robić to ręcznie lub z pomocą algorytmów, a cel tych działań jest ten sam – optymalizacja jakości danych, którym można ufać przy podejmowaniu trafnych decyzji biznesowych. Jest to czasochłonny proces, który analitykom danych zajmuje około 60% czasu pracy! Ważnym elementem jest tu zatem automatyzacja procesów i identyfikacja przyczyny powstawania wadliwych danych. Od dokładnego wykonania tego procesu zależy jednak sukces całej operacji.

Najważniejsze etapy oczyszczania danych to:

  • Walidacja – inaczej sprawdzenie, czy surowe dane nie zawierają podstawowych błędów, które mogłyby zachwiać sensownością całego procesu. Z tego powodu koniecznie należy rozpocząć higienę danych właśnie od walidacji.
  • Formatowanie do wspólnej wartości (standaryzacja / uspójnienia / słownikowanie) – często zdarza się, że różne sformułowania czy określenia dotyczą tego samego rodzaju rekordu. Przykładem jest wpisanie w wewnętrzną wyszukiwarkę e-commerce trzech fraz kluczowych: buty damskie, kobiece buty i obuwie dla kobiet. Każda fraza oznacza to samo, więc analizując liczbę użytkowniczek zainteresowanych tego typu produktami należy je sprowadzić do wspólnej wartości.
  • Czyszczenie duplikatów – segregowanie danych może sprawić, że pojawią się duplikaty niektórych wartości. Aby nie zaburzyły one wyników, trzeba je wyeliminować.
  • Uzupełnianie brakujących danych vs. usuwanie danych niepełnych – aby wykonać analizę konieczna jest kompletna baza danych, dlatego należy uzupełnić wszystkie brakujące informacje. Z kolei dane niepełne mogą zaburzać wyniki, dlatego warto je wykluczyć, jeśli nie zaburzy to analizy.
  • Wykrywanie konfliktów w bazie danych – ostatnim etapem jest wyeliminowanie wartości wzajemnie wykluczających się. Jeśli analiza wykazała, że w sklepie internetowym zamówiono X sztuk danego produktu, a w tabeli “Wartość zamówień” widnieje kwota 0 zł – gdzieś występuje błąd. Nieprawidłowa jest liczba zamówień bądź ich wartość. Konieczna jest weryfikacja i dodatkowa analiza spornych kwestii.

Inwestycja w profesjonalizację zarządzania danymi

Co zyskasz dzięki zarządzaniu danymi? Przede wszystkich pewność, że podejmujesz decyzje biznesowe w oparciu o wiarygodne dane. Zanim rozpoczniesz szczegółową dyskusję o kształcie raportów analitycznych czy zarządczych, zadbaj o to, by powstawały one w oparciu o dobrze zweryfikowane, spójne, zrozumiałe źródła. Warto również w jak największym stopniu zautomatyzować walidację i przetwarzanie danych, eliminując omylny czynnik ludzki i przyspieszając przygotowanie danych do raportów. Choć opisany proces wydaje się trudny i kosztowny, do sprawnego zarządzania jakością danych wcale nie musisz mieć profesjonalnej hurtowni danych i ogromnego budżetu. Ważne są zoptymalizowane procesy i nastawienie pracowników, a w pozostałych aspektach pomoże odpowiednie know-how i technologia.

Jeśli potrzebujesz wsparcia w obszarze zarządzania danymi w Twojej firmie, skontaktuj się z nami. W Enterium wykorzystujemy odpowiednie narzędzia i techniki ETL (wyodrębniania, przekształcania i ładowania danych). Pracujemy głównie w ekosystemie Microsoft, jednak dużą wagę przywiązujemy do wartości biznesowej docelowego kształtu zestawów danych. Zawsze podstawą naszych działań jest zrozumienie biznesu klienta, aby precyzyjnie określić jego potrzeby i opracować docelowy kształt zestawów danych, które będą najbardziej użyteczne analitycznie na dalszych etapach współpracy.

Related posts

Jak wycenić firmę? Najpopularniejsza metoda wyceny przedsiębiorstwa (cz.3)

Czytaj więcej

Jak wycenić firmę? Najpopularniejsza metoda wyceny przedsiębiorstwa (cz.2)

Czytaj więcej

Wprowadzenie do metod wyceny przedsiębiorstw (cz.1)

Czytaj więcej

We are increasing company value, for real