7 wskazówek: Jak skuteczniej zarządzać Big Data?
Uważam, że firmy nie wykorzystują DOSTATECZNIE DOBRZE potencjału Big Data.
Choć często określają się jako "data driven", to podczas bliższego przyjrzenia się okazuje się, że wiele z nich nie spełnia tego standardu. Dlatego stworzyłem ten artykuł, który oparty jest na moich doświadczeniach i dostarcza wartość:
- Właścicielom firm, którzy dowiedzą się, jakie korzyści mogą odnieść z efektywnego zarządzania danymi;
- Analitykom, którzy otrzymają praktyczne wskazówki i narzędzia do lepszego wykorzystania Big Data;
- Wszystkim zainteresowanym zarządzaniem danymi, którzy rozumieją, że podejście oparte na danych ma rzeczywisty sens w biznesie.
Poniżej znajdziesz kilka porad, które pomogą Ci uskutecznić zarządzanie dużymi zbiorami danych.
Wprowadzenie
Po wprowadzeniu Google Analytics 4, wiele osób zaczęło zwracać uwagę na BigQuery jako rozwiązanie, które pozwala uniknąć ograniczeń związanych z ilością zapytań API w narzędziu Looker Studio. Niestety, większość osób na tym etapie zakończyło swoją przygodę z Big Data, wykorzystując natywne połączenie. Niezagłębienie się w obszar inżynierii danych w tym przypadku ogranicza nasze możliwości, jeśli rzeczywiście chcemy mocno opierać się o podejście #datadriven i rozwijać w kierunku AI/ML.
W Tigers postanowiliśmy pójść krok dalej i wykorzystać pełen potencjał danych zgromadzonych w różnych źródłach. Naszym celem jest nie tylko pozyskiwane informacji z systemów Google, takich jak Google Analytics 4 lub Google Ads, ale także eksploracja innych platform jak np. Facebook lub LinkedIn. Dużą uwagę przykuwamy też do danych pozyskiwanych bezpośrednio z systemów CRM/ERP/Ecommerce, które są często kluczowymi elementami pod kątem wyników sprzedażowych.
#1 Przygotuj odpowiedni toolstack
Wybór odpowiedniego toolstacka i technologii stanowi kluczowy, a jednocześnie pierwszy krok w skutecznym zarządzaniu Big Data, zarówno od strony narzędzi ETL, jak i w kontekście narzędzi Business Intelligence (BI). Dostosowanie odpowiednich narzędzi do potrzeb i charakterystyki danych zapewnia wydajność, spójność i precyzję analizy.
W przypadku narzędzi ETL, wartościowym etapem jest sprawdzenie schematu danych dostarczanych przez API. Niekiedy dostawcy oprogramowania mogą zamieścić informacje o źródle danych, ale nie uwzględnić wszystkich endpointów czy tabel. Dlatego kluczowym jest dokładne zapoznanie się z dokumentacją API, aby mieć pełen obraz dostępnych danych.
Zdarzało mi się także trafiać na rozwiązania, które zapewniały wszystkie możliwe metryki z danego źródła, lecz każdą z nich rozbijały na osobne tabele. Z jednej strony może mieć to swoje plusy, lecz w praktyce takie rozwiązanie wiązało się z podłączeniem każdej metryki (tabeli) do narzędzia BI jako nowe źródło. W związku z tym otrzymywaliśmy ~100 różnych źródeł co nie było komfortowym rozwiązaniem, szczególnie jeśli dochodziło do tego mieszanie danych z wielu źródeł, w obrębie jednego wykresu.
Dlatego istotne jest, aby narzędzie ETL umożliwiało przeprowadzenie transformacji już na poziomie samego narzędzia, jeszcze przed załadowaniem danych do magazynu danych (data warehouse). Taka funkcjonalność pozwala na uporządkowanie i przekształcenie danych w spójny i jednolity format, co znacznie ułatwia późniejszą analizę i zapewnia jakość danych. Przydatne są również zaawansowane funkcje transformacyjne, które umożliwiają filtrowanie, scalanie, agregację czy generowanie unikalnych identyfikatorów, zgodnie z potrzebami analizy.
#2 Sprawdź rozproszone źródła danych
Choć istnieje możliwość korzystania z Google Analytics 4 w celu analizowania wielu kanałów, należy zauważyć, że sytuacja staje się bardziej skomplikowana, gdy mamy do czynienia z różnorodnymi źródłami danych oraz mniej popularnymi systemami CMS/ERP. W takich przypadkach, korzystanie z GA4 może być trudne lub nawet niemożliwe do osiągnięcia pełnej spójności i precyzji w analizach.
Google Analytics 4 powinniśmy traktować jako narzędzie do analizy trendów i ogólnych wzorców. W celu dokładnej analizy kluczowych wyników, starajmy się pozyskiwać te dane, które „leżą” najbliżej źródła.
Dla przykładu – firma X prowadzi kampanie w 2 kanałach reklamowych. Dodatkowo korzysta także z systemu Amazon oraz prowadzi jeden sklep stacjonarny. Gdy przychodzi koniec miesiąca, analityk musi poświęcić dużo czasu na analizę raportu z każdego kanału, gdzie nie są one ustandaryzowane – zaczyna się praca na Excel. Dodatkowo przeglądając wyniki widzi, że przychód z Google Ads, Facebook Ads i Amazon, różni się całkiem od tego, który prezentuje GA4, a dodatkowo ma jeszcze wyniki z systemu sklepu stacjonarnego, który nie integruje się z GA4 i dane musi przepisywać ręcznie. Celem analizy jest dostarczenie dla zarządu wyników sprzedażowych, więc analityk decyduje się na pobranie większości danych bezpośrednio z ERP.
Oczywiście ten przykład nie ma na celu zniechęcić do szczegółowych analiz każdego kanału z osobna, ponieważ dzięki temu uzyskujemy ciekawe wnioski i insighty. Bardziej chodzi o pokazanie jak dużo pracy musimy włożyć w to, aby dane z różnych kanałów pobrać w jedno miejsce, następnie je ustandaryzować i dopiero wtedy możemy rozpocząć analizę. Do tego często dochodzą różne ograniczenia natury technicznej.
Idealne rozwiązanie zakłada stworzenie dla analityka jednego miejsca, które automatycznie pobiera dane z różnych źródeł, odpowiednio je modeluje i wizualizuje – czy jest to realne? Jak najbardziej!
#3 Wprowadź analityczne dashboardy
W Tigers oferujemy takie rozwiązanie w postaci naszych zaawansowanych dashboardów, które umożliwiają klientom dostęp do pełnego przekroju danych i informacji w jednym miejscu. Jesteśmy w stanie skonsolidować dane z różnych źródeł, przekształcać i modelować, aby dostarczyć klientom kompletny obraz ich działalności.
W tym celu wykorzystujemy głównie zasoby i technologię chmurową Google Cloud Platform wraz z zewnętrznymi narzędziami wspierającymi procesy ETL jak np. Hevo, SyncWith, Mage, Databrick. Dla osób wtajemniczonych - można powiedzieć, że pomimo Tygrysiego instynktu mocno działamy też w Pythonie.
Tworzenie dedykowanych dashboardów, które odpowiadają potrzebom klienta, jest integralną częścią naszej pracy. Każdy klient ma unikalne wymagania i cele biznesowe, dlatego tak projektujemy i dostosowujemy nasze dashboardy, aby dostarczały im dokładnych, wartościowych informacji.
#4 Zwracaj uwagę na unikatowe metryki
Unikatowe metryki, takie jak "Reach" (zasięg), często stanowią wyzwanie przy analizie danych w Big Data. Przykładem takiej sytuacji może być metryka zasięgu w kontekście reklam na platformie Facebook Ads. Jeśli przyjrzymy się zasięgowi każdej kampanii reklamowej i zsumujemy te wartości, możemy uzyskać pewną liczbę (oznaczmy ją jako X). Jednak, gdy spojrzymy na podsumowanie tej metryki, otrzymamy inną wartość (oznaczmy ją jako Y). To wynika z faktu, że w przypadku unikatowych metryk występuje proces deduplikacji danych.
Może to brzmieć skomplikowanie, ale rozważmy przykład, w którym wyświetlają się dwie reklamy od tego samego reklamodawcy. Oglądając obie reklamy, w panelu reklamowym dla każdej z nich przypisywana jest wartość 1. Wydawałoby się, że zasięg wynosi 2, ponieważ zobaczyliśmy dwie reklamy. Jednak Facebook wie, że obie reklamy zostały wyświetlone tej samej osobie i dokonuje deduplikacji, czyli wyeliminowania powtórzeń. W rezultacie, w podsumowaniu zasięgu otrzymujemy wartość 1.
W kontekście budowy własnego systemu Big Data opartego na surowych danych, które są aktualizowane codziennie, tego rodzaju unikatowe metryki mogą stanowić wyzwanie. Jeśli zbieramy zasięg dla każdego dnia, suma tych wartości może prowadzić do nieprawidłowych wyników, o których wcześniej wspominałem.
Jednym z rozwiązań tego problemu jest pobieranie unikatowych metryk na poziomie całego miesiąca, a nie dla poszczególnych dni. W ten sposób ograniczamy wpływ procesu deduplikacji na wyniki, a jednocześnie zachowujemy odpowiednią precyzję i spójność danych.
#5 Optymalizuj działania
Kolejnym kluczowym aspektem, który jest istotny przy budowie środowiska Big Data, jest optymalizacja zapytań, szczególnie w przypadku zapytań niestandardowych SQL. Ta kwestia staje się szczególnie ważna, gdy mamy do czynienia z dużymi hurtowniami danych, gdzie ilość danych jest ogromna.
Dla osób, które korzystają z BigQuery jako alternatywy dla limitów zapytań API z Google Analytics 4 w Looker Studio, optymalizacja może nie być pierwszoplanowym problemem. Jednak, dla tych, którzy zaawansowali w temacie Big Data, optymalizacja staje się kluczowym elementem.
Jednym ze sposobów optymalizacji jest partycjonowanie tabel. Dzięki partycjonowaniu możemy ograniczyć zapytania do określonego zakresu opartego na dacie, co pozwala uniknąć konieczności przeszukiwania całej bazy danych. Tym samym, zapytania są bardziej efektywne i szybsze, co poprawia wydajność całego systemu.
Kolejnym narzędziem optymalizacyjnym są indeksy. Ich wykorzystanie pozwala na szybkie odnalezienie odpowiednich danych, co eliminuje konieczność przeszukiwania całych tabel. Dzięki indeksom zapytania są bardziej wydajne, zwłaszcza w przypadku dużych baz danych.
Zapytania agregujące są także skutecznym sposobem optymalizacji. Wykorzystanie funkcji agregujących, takich jak SUM, AVG, COUNT, pozwala na obliczanie wartości na poziomie bazy danych, co zmniejsza ilość danych przesyłanych do aplikacji i poprawia wydajność.
Dodatkowo, wprowadzenie prostych ograniczeń, takich jak klauzula "LIMIT", pozwala na pobranie tylko określonej liczby wierszy z wyników zapytania. To może znacznie zmniejszyć czas wykonania zapytań i ilość danych, które muszą być przetworzone.
#6 Wykorzystaj AI/ML
Dane, w przeciwieństwie do bycia pozostawionymi jako archiwalne, można powiedzieć, że stają się cenniejsze gdy są w ruchu. Mowa tutaj o wykorzystaniu ich w kontekście sztucznej inteligencji (AI) i uczenia maszynowego (ML), szczególnie w zakresie prognozowania i estymacji. W ramach naszych możliwości pracy na wielu kontach, dążymy do rozwijania bechmarkingu biznesów z różnych obszarów (oczywiście w formie anonimowej). Chcemy dostarczać rozwiązania, które nie tylko analizują dane i generują prognozy, ale także pozwalają na eksplorację i zrozumienie zależności w danych biznesowych.
Analiza rynku pozwala nam monitorować zmiany w preferencjach i zachowaniu klientów, a także identyfikować rosnące lub malejące trendy. Na podstawie tych informacji możemy podejmować lepsze decyzje dotyczące strategii marketingowej, alokacji zasobów i optymalizacji działań. W tym celu wykorzystujemy również rozwiązania z rodziny Google – Vertex AI, BigQuery ML, ale mogę pokrótce zdradzić, że pracujemy nad rozwiązaniem opierającym się o własne biblioteki.
#7 Podejdź do danych z perspektywy strategicznej
Choć ten punkt nie jest mocno “odkrywczy”, czuję wielką potrzebę umieszczenia go w tym poradniku.
Big Data nie powinno być postrzegane jedynie jako zbiór informacji, ale również jako strategiczny zasób biznesowy.
Wykorzystaj analizę danych jako narzędzie do podejmowania decyzji strategicznych. Przyjrzyj się danym w kontekście celów i strategii biznesowej. Jakie wnioski można wyciągnąć z analizy danych? Jakie trendy i możliwości można zidentyfikować? Jakie działania należy podjąć, aby wykorzystać te informacje w celu doskonalenia strategii marketingowej czy optymalizacji procesów operacyjnych?
Pamiętaj, że dane są nieocenionym źródłem wiedzy, które może prowadzić do innowacji i rozwoju. Podejdź do nich z długoterminową perspektywą i wykorzystuj je do budowania strategii biznesowej, która umożliwi osiągnięcie sukcesu na rynku.
To co dalej!?
Mam nadzieję, że tym artykułem natchnąłem Cię do przyjrzenia się danym w Twojej firmie. Może w Twojej głowie już pojawił się pomysł jak wykorzystać te porady w praktyce?
Niezależnie czy jesteś eCommerce managerem, analitykiem czy freelancerem, jeśli masz konkretny przypadek związany z Big Data i chciałbyś skonsultować go oraz otrzymać rekomendacje - napisz do mnie maila na jakub.rojek@tigers.pl lub zarezerwuj czas na konsultację bezpośrednio w poniższym kalendarzu.
Z chęcią odpowiem na Twoje pytania!