Legalność web scraping`u
Co do zasady skrobanie stron jest legalne. Pamiętać jednak należy, że czym innym jest pozyskiwanie danych, a czym innym ich wykorzystanie. W zależności od okoliczności, nieodpowiednie korzystanie z pozyskiwanych w ten sposób danych może narazić nas na określone prawne problemy.
Po pierwsze, w ramach web scrapingu mogą zostać pobrane dane osobowe. RODO chroni wszelkie informacje związane z daną osobą, w tym także stosowane w Internecie nicki, jeśli pozwalają na identyfikację danej osoby. Uzyskiwanie i przetwarzanie tych danych wymaga odpowiedniego uzasadnienia lub zgody osób, do których należą. Nieprzestrzeganie RODO rodzić może istotne negatywne konsekwencje, łącznie z odpowiedzialnością karną za przetwarzanie danych osobowych bez uzyskania odpowiednich uprawnień przy automatycznym pobieraniu danych.
Dowiedz się więcej o RODO i konsekwencjach jego ignorowania: https://rpms.pl/poradnik-rodo-2018/; https://rpms.pl/co-zawiera-dokumentacja-rodo-w-firmie-i-dlaczego-kazdy-przedsiebiorca-powinien-ja-stosowac/.
O ryzykach związanych z nieuprawnionym korzystaniem ze ,,zescrapowanych” danych osobowych przekonała się niedawno spółka Clearview AI, na którą nałożono 7,5 mln funtów kary w Wielkiej Brytanii oraz kolejne 20 milionów euro kary we Włoszech (a dalsze postępowania zostały wszczęte m.in. w Austrii czy Niemczech jeśli chodzi o pobieranie danych przy świadczenie usług drogą elektroniczną i konkretne dane rzeczywistych użytkowników zawarte w bazie danych przez stronę internetową). Spółka ta wykorzystywała web scraping do ściągania z Internetu zdjęć twarzy oraz tworzenia bazy pozwalającej na ich identyfikację. Zdjęcia pobierane były bez wiedzy i zgody zainteresowanych. Clearview pozwalał użytkownikowi nie tylko na identyfikację danej osoby po jej wizerunku, ale też na porównanie jej z osobami o podobnych cechach fizjologicznych. Organy zajmujące się ochroną danych osobowych uznały taką praktykę za niezgodną z prawem z uwagi na naruszenie prawem autorskim i narusza interes innego przedsiębiorcy w zakresie danych konkurencji, a nawet uzyskanie przewagi konkurencyjnej przy okazji pobierania danych przez web crawler czy witryna internetowa na prawach pokrewnych jeśli chodzi o strony internetowe chronione prawem autorskim.
Po drugie, warto zapoznać się z regulaminem danej strony internetowej jeżeli taki jest udostępniony. Może on zabraniać kopiowania, pozyskiwania lub przetwarzania danych pochodzących z danej strony albo wprost wykluczają web scraping. Regulamin strony jest traktowany jako wzorzec umowny i korzystanie z niej jest równoznaczne z jego akceptacją. Jeżeli naruszymy postanowienia regulaminu, możliwe jest otrzymanie bana – zablokowanie konta lub numeru IP, z którego korzystamy, wchodząc na stronę.
Więcej informacji na temat regulaminu strony internetowej znajdziesz tutaj: https://rpms.pl/co-musi-zawierac-kazdy-regulamin-strony-internetowej/.
Kolejną istotną kwestią są prawa autorskie. Obrazki, zdjęcia, filmy, teksty, ale też sam kod danej strony są przedmiotem ochrony praw autorskich. Nie można zatem korzystać z nich bez uzyskania odpowiedniej licencji. Jeżeli przekroczymy zakres dozwolonego użytku (np. użytku osobistego, naukowego, prawa cytatu), istnieje ryzyko narażenia się na odpowiedzialność odszkodowawczą względem autora albo osób, którym udzielił on licencji. Konsekwencją może też być także zablokowanie naszego adresu IP. Jeszcze szerszy zakres ochrony rozciąga się także na bazy danych: jeżeli dana witryna spełnia definicję bazy danych, a wykorzystamy dla naszych celów jej istotny element, może nam grozić odpowiedzialność odszkodowawcza.
Web scraping jest zatem co do zasady legalny – trzeba jednak zachować przy tym rozsądek i zwracać uwagę na wskazane powyżej kwestie.
Jak można legalnie wykorzystać web scraping?
Web scraping jest bardzo przydatny przede wszystkim w branży e-commerce. Pozwala m. in. na monitorowanie produktów konkurencji, stosowanych przez nią cen (a nawet całej polityki cenowej), opinii na temat produktu na forach internetowych, ocen w sklepach internetowych, preferencjach konsumentów (ile osób kupiło dany produkt), badanie wzmianek o produkcie, pozyskiwane danych o potencjalnych klientach i kontrahentach. Na web scrapingu oparte jest też badanie pozycjonowania dla celów marketingowych (SEO). Nie dziwi więc, że internet oferuje szereg specjalnych programów specjalizujących się w wyszukiwaniu wzmianek na dany temat, opartych właśnie na web scrapingu.
Czego unikać i jak posługiwać się web scraping`iem?
Nie zawsze web scraping za pomocą bota jest niezbędny. Niekiedy strony udostępniają API – czyli interfejs programowania aplikacji. API umożliwia bezpośrednią komunikację między użytkownikiem a źródłem danych oraz ich pobranie za pomocą wykorzystania odpowiedniego protokołu. API umożliwia dużo szybsze i pewniejsze pozyskiwanie informacji z serwera: podczas gdy bot dokonujący web scrapingu pobiera całą zawartość strony, a następnie analizuje ją w poszukiwaniu odpowiednich informacji, API pozwala na bezpośredni dostęp do pożądanych danych.
Po drugie, jak już wspomniano, warto zapoznać się z treścią regulaminu danej strony. Jednak nie każda strona posiada regulamin, a boty nie rozumieją przecież dokumentu napisanego przez człowieka i dla człowieka. Z tego powodu istotna jest treść pliku robots.txt. Jest to plik tekstowy o ustandaryzowanej strukturze, który stanowi dla botów informacje o ich uprawnieniach: gdzie mogą wchodzić, a jakie części danej strony są dla nich niedostępne. Programując bota należy zatem respektować limit ustalone przez właściciela strony. Inaczej na dane IP może zostać nałożona blokada (ban).
Dobrą praktyką jest także branie pod uwagę ruchu na stronie: tj. zaprogramowanie bota, by nie wysyłał zapytań w godzinach, w których ruch na stronie jest największy i nastawić go na skanowanie strony w godzinach, gdy jest mniejszy. Nasz bot nie będzie prawdopodobnie jedynym wysyłającym zapytania: istnieje zatem ryzyko, że nadmierna ilość zapytań zablokuje albo zawiesi stronę, z której nie będą mogli korzystać inni użytkownicy. Warto też np. ograniczyć ilość zapytań kierowanych do serwerów, albo uregulować bota tak, by zadawał kolejne zapytania w pewnych odstępach czasowych.
Web scraping – słowem podsumowania
Web scraping jest zatem narzędziem, którego wykorzystanie może okazać się bardzo opłacalne. Należy jednak korzystać z niego z umiarem oraz szacunkiem dla autorów treści zamieszczanych w Internecie oraz innych użytkowników.
Pytania i odpowiedzi
Ochrona baz danych wynika zarówno z przepisów prawa autorskiego jak i specjalnej ustawy o ochronie baz danych, która przewiduje szerszy zakres ochrony dla baz danych niż dla dzieła. Baza danych oznacza zbiór danych lub jakichkolwiek innych materiałów i elementów zgromadzonych według określonej systematyki lub metody, indywidualnie dostępnych w jakikolwiek sposób, w tym środkami elektronicznymi, wymagający istotnego co do jakości lub ilości nakładu inwestycyjnego w celu sporządzenia, weryfikacji lub prezentacji jego zawartości. Zgodnie z ustawą, producent bazy danych udostępnionej publicznie nie może zabronić korzystającemu jej wtórnego wykorzystania, ale również pobierania w jakimkolwiek celu nieistotnej, co do jakości lub ilości, części jej zawartości. W przypadku web scrapingu konieczne jest zatem określenie jaka część strony jest nieistotna. Należy przy tym pamiętać, że nie jest dozwolone powtarzające się i systematyczne pobieranie lub wtórne wykorzystanie z bazy danych sprzeczne z normalnym korzystaniem i powodujące nieusprawiedliwione naruszenie słusznych interesów producenta. Jeżeli zatem jednorazowo pobierzemy niewielką cześć bazy danych, nie powinny nas czekać żadne sankcje. Jeżeli jednak nasz bot będzie pobierać pewne informacje codziennie w sposób systematyczny i będzie to naruszać interesy producenta – będzie to sprzeczne z prawem. Przy tym, nawet jednokrotne pobranie danych z bazy może naruszać przepisy, jeżeli stanowi jej ,,istotną” część. Pojęcie to jest nieostre, zatem podlega każdorazowej ocenie co do istotności. Innymi słowy, web scraping części bazy danych jest bardziej ryzykowny niż pobranie danych ze zwykłej strony i może narazić nas na zapłatę odszkodowania, zwrotu utraconych korzyści lub inną kompensatę na rzecz producenta.
W związku z faktem, że web scraping pozwala na ,,śledzenie” konkurencji można zastanowić się, czy nie stanowi on formę czynu nieuczciwej konkurencji. Żaden przepis nie zakazuje web scrapingu wprost, można się zastanawiać czy posługiwanie się nim jest zgodne z dobrymi obyczajami. Do tej pory nie wydano jednak żadnej decyzji ani wyroku, która uznałaby web scraping za czyn nieuczciwej konkurencji. Ponadto porównywanie przez przedsiębiorców publicznie dostępnych cen czy zakresu produktów z konkurencją nie jest niczym nagannym. Nie oznacza to jednak, że w przyszłości pewne formy web scrapingu uznane zostaną za czyny nieuczciwej konkurencji. Za jego pomocą może dojść np. do blokowania ruchu na stronie konkurenta (przy pomocy bota kierującego do serwera wiele zapytań) czy ujawnienia tajemnicy handlowej konkurenta.
Zaufali nam: