Case study: data scraping, czyli robota dla bota

Jak skutecznie, szybko i sprawnie monitorować 340 różnych stron internetowych w poszukiwaniu konkretnych informacji? Dla firmy szkoleniowej zaprojektowaliśmy i wdrożyliśmy efektywny proces automatycznego pozyskiwania danych z sieci (web scrapingu).

Z tego wpisu dowiesz się:

co to jest automatyczny web scraping,
jak pomogliśmy klientowi usprawnić przeczesywanie kilkuset stron internetowych,
czemu automatyzacja pobierania danych to przyszłość.

Firma szkoleniowa, która chce regularnie pozyskiwać klientów, musi być na bieżąco z informacjami o dostępnych środkach z Krajowego Funduszu Szkoleniowego. Takie informacje publikują na swoich stronach Powiatowe Urzędy Pracy (PUP) w całym kraju.

Problem polega na tym, że by pozyskać takie dane i poinformować klientów o możliwościach dofinansowania szkoleń we właściwym dla nich urzędzie pracy, firma szkoleniowa musi codziennie przejrzeć setki stron internetowych. Czas i uważność są tu wyjątkowo ważne, bo liczy się kolejność składania wniosków. Praca żmudna, narażona na błędy i powtarzalna? To idealne warunki pracy dla bota!

Pozyskiwanie danych ze stron internetowych: codzienność firmy szkoleniowej

Osoba odpowiedzialna za ręczny web scraping u naszego klienta, firmy doradczej, każdego dnia musiała przejrzeć 340 stron PUP-ów. Następnie uzupełniała w arkuszu Excel informacje o naborach wniosków, dostępnym budżecie oraz terminie na składanie dokumentów. Dopiero potem mogła rozesłać mejle do poszczególnych klientów.

Taka technika pozyskiwania danych zajmuje zasoby i oznacza poważne komplikacje w przypadku urlopów czy zdarzeń losowych. Jeżeli zabraknie człowieka, który wie, jak przeszukiwać strony PUP, proces sprzedażowy firmy szkoleniowej może ucierpieć. Pozyskiwania danych nie ułatwia też sama struktura stron internetowych PUP. Część nie jest zorganizowana według jednego standardu i brak im jednolitej struktury informacji. Potrzebne dane są publikowane w różnych zakładkach, nierzadko nieintuicyjnie. Przez to czas pozyskiwania danych się wydłuża. (To zupełnie jak w płatnościach transgranicznych, gdzie nowy standard ma przynieść ujednolicenie formatu informacji i danych. Więcej na ten temat w tekście o wykorzystaniu danych ISO 20022).

Proponowane rozwiązanie: automatyczny proces web scrapingu

Zaproponowaliśmy firmie automatyzację web scrapingu i opracowanie narzędzia, które usprawni pobieranie informacji związanych z dofinansowaniem szkoleń. Etap pierwszy obejmował stworzenie zaawansowanej aplikacji (bota) w Javie z użyciem Spring Boota. Bot miał efektywnie przeglądać strony internetowe urzędów pracy i wyręczyć człowieka w tej żmudnej i powtarzalnej czynności.

Etap drugi koncentrował się na wyszukiwaniu zmian na stronach. Poprzez odpowiednie skonfigurowanie bota wprowadziliśmy automatyczne monitorowanie zmian na konkretnej stronie i sprawdzanie, czy nie pojawiły się na niej nowe
informacje. W ten sposób automatyczny web scraping umożliwia szybkie dotarcie do aktualnych danych o środkach dostępnych z Krajowego Funduszu Szkoleniowego.

Web scraping, czyli na czym polega przewaga automatyzacji

Zbieranie danych i ich automatyczne pobieranie wymaga standaryzacji i strukturyzacji danych. Naszym celem była automatyzacja analizowania danych. W ramach procesu bot automatycznie loguje się na 340 stronach, pobiera minimum 10 informacji ze strony – i przekazuje dane do aplikacji. Następnie analizuje i identyfikuje aktualne nabory do Krajowego Funduszu Szkoleniowego.

Na tym etapie wprowadzamy standaryzację danych, co ułatwia porównywanie informacji z różnych źródeł. W ten sposób przechodzimy od rozproszonych danych do centralnej bazy. Taka konsolidacja raportowania danych z urzędów powiatowych pozwala zwiększyć efektywność procesu analizy ofert dofinansowania szkoleń. Planujemy, że mejle będą wychodzić z aplikacji najpierw do zamawiającego, a docelowo od razu do jego klientów. Gwarantuje ona również większą czytelność informacji oraz wyeliminowanie błędów związanych z niejednolicie podanymi danymi. Pozwala także szybko reagować na pojawiające się zmiany i zwiększać konkurencyjność naszego klienta na rynku usług szkoleniowych.

Web scraping: działaj szybciej niż konkurencja

Automatyzacja w połączeniu z GPT i standaryzacją danych pozwala na efektywne korzystanie nawet z trudnodostępnych i rozproszonych danych. To także rozwiązanie problemu różnorodności stron internetowych. Ale web scraping nadaje się do przeszukiwania różnego rodzaju danych. Podobne rozwiązanie można z powodzeniem wdrożyć do chociażby monitorowania cen konkurencji.

Web scraping przyspiesza i ułatwia proces informowania klientów. Pomaga im podejmować strategiczne decyzje. Zachęcamy do kontaktu firmy usługowe, które poszukują możliwości optymalizacji ręcznych procesów pracy z danymi. Pomożemy znaleźć rozwiązanie dopasowane do Waszych potrzeb.