Najczęstsze problemy w zakresie higieny danych – jak je rozwiązać

Niedokładne dane utrudniają reakcję na zmiany rynkowe – tak twierdzi 77% respondentów z badania Experian z 2022 roku.  Tymczasem wiele firm ma trudności z dbaniem o jakość swoich danych. Menedżerowie wskazali, że niska jakość danych negatywnie wpływa na doświadczenia klientów (39%), a 84% zwróciło uwagę na brak umiejętności analizowania danych przez pracowników.  


Z tego wpisu dowiesz się:

  • czym jest higiena danych
  • jakie są główne problemy z danymi
  • czym skutkują problemy z danymi w firmach
  • co utrudnia dbanie o higienę danych?

Czym jest higiena danych?


Higiena danych to proces zarządzania nimi, ich przechowywanie, aktualizowanie i usuwanie. Dane muszą być aktualne, poprawne, kompletne i zgodne z wymaganiami organizacji, by nowoczesne technologie mogły je wykorzystywać. Dlatego higiena danych staje się nieodzownym elementem zarządzania. Regularne monitorowanie danych i ocena ryzyka pomagają w utrzymaniu ich wysokiej jakości. A to przekłada się na lepsze decyzje biznesowe i minimalizuje ryzyko naruszenia danych. 

Przeczytaj nasz artykuł Czym jest higiena danych i jak o nią dbać w organizacji?.

Portal Salesforce ustalił, że 73% liderów uważa, że rzetelne dane wspomagają podejmowanie trafnych decyzji. Tymczasem wiele firm ma trudności z dbaniem o jakość swoich danych. Według badania, które opublikował Harvard Business Review, średnio 47% nowych rekordów danych zawiera co najmniej jeden błąd krytyczny (czyli wpływający na pracę). Podczas, gdy wynik 3% uznaje się za „akceptowalny” – i to przy najniższych możliwych standardach. 

Właśnie ta niska jakość danych powoduje problemy przy integrowaniu albo automatyzowaniu danych. Jak wynika z publikacji „The costs of poor data quality”, 88% projektów integracji danych kończy się niepowodzeniem lub znacznie przekracza budżet. Powód? Niska jakość danych.

Typowe problemy z danymi


  • Duplikacja: rekordy w bazie danych pojawiają się więcej niż jeden raz. Zdarza się, że ta sama osoba, firma czy lokalizacja występuje w bazie kilka razy, ale z innym zestawem danych.
  • Pominięcie danych: wyszukiwanie nie pokazuje wszystkich wymaganych w konkretnej sytuacji danych. Nie ma więc pełnego obrazu sytuacji.
  • Niespójność: te same dane istnieją w różnych formatach w kilku tabelach. Tworzysz wtedy kilka plików, a każdy z nich zawiera różne informacje o tym samym obiekcie lub osobie.
  • Niedokładność: w bazie danych są nieprawidłowe albo nieaktualne wartości. Trudno wtedy podejmować świadome i optymalne decyzje.

Niskiej jakości dane – przykładowe problemy w firmie


Sprzedaż i marketing

Firma DiscoverOrg przeprowadziła badanie nad jakością danych w firmach. Wykazało, że działy sprzedaży i marketingu tracą około 550 godzin i do 32 000 USD na przedstawiciela handlowego z powodu korzystania z nieprawidłowych danych.   

Według raportu MIT Sloan analitycy danych spędzają 60% czasu pracy na czyszczeniu i organizowaniu danych. Pozostali pracownicy marnują do 50% swojego czasu na ręczne odsiewanie ważnych danych i poprawę ich jakości.  

W marketingu może to generować niepotrzebne wydatki. Z kolei potencjalni klienci będą zirytowani, gdy z powodu zduplikowanych danych otrzymają te same treści kilka razy. A to dość częsty problem, gdy w bazie danych jest kilka rekordów o tej samej nazwie, ale zapisanych inaczej. Drobny błąd, który powoduje spore straty wizerunkowe.  

W sprzedaży online przez niskiej jakości dane klient może otrzymać niewłaściwy produkt. Takie jest ryzyko, gdy brakuje rzetelnych danych o produktach i docelowych odbiorcach. A co, jeśli w bazie danych nie ma automatycznej weryfikacji rekordów? I w polu numeru telefonu znajdzie się przez przypadek numer NIP klienta? Kurier na pewno nie dodzwoni się z informacją o dostawie.   

Finanse i bankowość

W sprawozdawczości finansowej konsekwencją niespójnych danych jest wiele odpowiedzi na to samo pytanie. Powstają niedokładne raporty, które wprowadzają w błąd. Mogą dawać fałszywe poczucie bezpieczeństwa lub wręcz przeciwnie: niepokojące poczucie braku bezpieczeństwa finansowego.   

Błędne dane dotyczące przychodów lub kosztów mogą prowadzić do niewłaściwej alokacji zasobów albo zbyt optymistycznej oceny opłacalności nowego projektu. Różnice w metodach księgowania czy klasyfikacji kosztów powodują, że raporty finansowe są niespójne. To utrudnia ocenę wydajności firmy i podejmowanie strategicznych decyzji. 

Produkcja

Produkcja jest również wrażliwa na jakość danych. Pozornie drobne nieścisłości w danych często powodują straty i prowadzą do błędnych decyzji. Na przykład nieaktualne ceny materiałów w kosztorysie mogą zniekształcić marżę. 

Niska jakość danych negatywnie wpływa na wzrost produkcji oraz zyski. Instytut Zarządzania Przemysłowego na uniwersytecie RWTH w Akwizgranie wykazał, że łańcuch dostaw traci od 1% do 3% wydajności z powodu problemów z jakością danych. To kosztuje producentów średnio 0,5% ich dochodów. Jakość danych agregowanych przez przedsiębiorstwa ma wpływ na sukces rynkowy i stabilny rozwój. 

Dane produkcyjne są często złożone. Mogą pochodzić z wielu źródeł, w tym z maszyn, czujników i systemów oprogramowania. Zintegrowanie danych z różnych źródeł może być trudne i wymagać znacznego zaangażowania zasobów. Taka sytuacja utrudnia analizę danych. Firmy produkcyjne wdrażają co prawda systemy klasy MES, ale to nie rozwiązuje problemów z głębszą analizą danych. 

Firmy stoją wtedy nadal przed wyzwaniami analizy ogromnych ilości danych. Te spływają każdego dnia, a muszą zostać odpowiednio przełożone na poszczególne obszary firmy produkcyjnej. Chociażby na osobiste cele pracowników. Do tego dochodzą ograniczenia związane z możliwością zmiany parametrów czy sporządzania dodatkowych raportów lub wizualizacji. Każda zmiana rodzi dodatkowe koszty, nie mówiąc o wydłużeniu czasu, by uzyskać dane czy sporządzić raporty. 

Firma Deloitte przygotowała raport „2024 Manufacturing Industry Outlook”. Aż 45% decydentów z firm produkcyjnych spodziewa się dalszego wzrostu efektywności operacyjnej dzięki inwestycji w internet rzeczy (Internet of things – IoT). 

W tej technologii łączy się produkt, użytkownika końcowego i producenta. Cel? Producent gromadzi informacje o tym, jak używany jest produkt i jaka jest jego wydajność. Firma produkcyjna zyskuje dostęp do większej ilości danych, które może wykorzystać na różne sposoby, np. w projektowaniu nowych produktów, naprawie produktów na gwarancji. Musi jednak mieć możliwość spięcia tych danych z pozostałymi systemami. 

Łańcuch dostaw

Bardzo trudno jest automatyzować procesy w łańcuchach dostaw, jeśli decyzje opierają się na niewiarygodnych informacjach o lokalizacji. Nie jest też jasne, jakich danych należy używać do podejmowania decyzji. Trudno kontrolować zapasy i planować zamówienia, gdy dane są nieaktualne, niepełne lub błędne. 

Niekompletne albo niejednorodne dane produktowe mogą utrudniać identyfikację i śledzenie produktów. Konsekwencją będą opóźnienia w dostawach, ale też trudności w spełnianiu wymagań regulacyjnych. Wynika z tego, że śledzenie produktów jest coraz ważniejsze w świetle wymagań środowiskowych, recyklingu i gospodarki obiegu zamkniętego. 

Zarządzanie

Wysokiej jakości dane poprawiają w firmie zdolność do osiągania długoterminowych celów. Jeżeli jakość danych będzie słaba, to może: 

  • negatywnie wpływać na zdolność adaptacji i szybkiego reagowania na nowe trendy i warunki rynkowe;  
  • zwiększać trudności w spełnieniu wymogów, które wynikają z kluczowych przepisów dotyczących prywatności i ochrony danych, takich jak GDPR, HIPAA i CCPA oraz zrównoważonego rozwoju (ESG); 
  • utrudniać wykorzystanie analityki predykcyjnej w odniesieniu do danych firmowych, co może wpłynąć na większą ryzykowność decyzji; 
  • uniemożliwić zapobieganie np. awarii maszyn, dzięki ich wcześniejszej konserwacji. To zwiększa przestoje i obniża produktywność. 

Co utrudnia higienę danych?


Rosnąca różnorodność źródeł danych

Do pewnego momentu firmy korzystały wyłącznie z danych generowanych przez własne systemy biznesowe. Powszechnym standardem były „silosy” danych: osobno sprzedaż, a osobno produkcja czy marketing. 

Obecnie biznes czerpie dane z różnych źródeł: internetu, internetu rzeczy, publikacji naukowych, wyników eksperymentów itp. Im więcej tych źródeł , tym trudniej kontrolować jakość danych, zadbać, aby nie zostały zmienione ani zmodyfikowane. 

Każdy kolejny system dodany do silnika przetwarzania danych zwiększa ryzyko utraty wartości tych danych. Są bardziej narażone na zmianę lub zniknięcie, ponieważ różne źródła generują różne typy danych. 

Chodzi tu zwłaszcza o dane nieustrukturyzowane, czyli nie  zorganizowane według zdefiniowanego modelu danych. Szacuje się, że one stanowią obecnie około 80% wszystkich danych na całym świecie. Każda operacja przetwarzania takich danych jest ryzykowna, bo może je okroić. 

Coraz większa ilość danych

Żyjemy i działamy w erze big data. Wolumen danych stale rośnie: od 1970 roku ilość danych podwaja się co trzy lata. Im więcej danych, tym trudniej je gromadzić, czyścić, integrować i uzyskiwać w miarę wysoką jakość. Do tego wydłuża się czas ich przetwarzania, a samo przetwarzanie jest coraz bardziej złożonym procesem. Warto zwrócić uwagę, że nadmiar danych i związany z tym stres mogą negatywnie wpływać na zdrowie psychiczne pracowników. 

Przyspieszenie prędkości wykorzystywania danych

„Dane w czasie rzeczywistym” stały się modnym hasłem w ciągu ostatnich pięciu lat. Im więcej danych generujesz, tym szybciej musisz je przetwarzać. Niestety, gdy zwiększasz prędkość, ryzykujesz zapchaniem systemów.  

Dane są jak ciecz w rurze: im szybciej płynie, tym bardziej prawdopodobne, że rura pęknie. Jedynym sposobem jest więc poszerzenie „rury z danymi”. Dzięki temu będą przetwarzane z prędkością dopasowaną do prędkości, z jaką napływają. To trudne zadanie i warto je wykonywać we współpracy z doświadczonymi ekspertami.  

Przetwarzanie danych w czasie rzeczywistym jest jednak nadal stosunkowo nową dziedziną. To oznacza, że niektóre ważne dane mogą umknąć, a nieistotne zostaną z powodzeniem przetworzone. Dlatego tak ważne jest regularne monitorowanie danych i dbanie o ich higienę.  

Brak własnych standardów jakości danych

Standardy jakości produktów istnieją od 1987 roku, gdy Międzynarodowa Organizacja Normalizacyjna (ISO) opublikowała normę ISO 9000. Natomiast standardy jakości danych – dopiero od 2011 roku (od normy ISO 8000). Wciąż są rozwijane i nie ma jednego powszechnego wzorca. Brakuje  uniwersalnych sposobów i procedur, które można z powodzeniem zastosować w każdej firmie. Firma musi zatem opracować własne zasady. Warto korzystać ze wsparcia doświadczonych konsultantów i analityków danych.  

O najlepszych praktykach w zakresie higieny danych dowiesz się z naszego artykułu: Wyciśnij więcej ze swoich danych – najlepsze praktyki w zakresie higieny danych

Higiena danych ma istotny wpływ na efektywność, bezpieczeństwo i higienę pracy w organizacji. Dane pochodzące z nieaktualnych lub błędnych źródeł mogą prowadzić do błędnych decyzji, które mogą mieć negatywne skutki dla organizacji.