Logi serwera a SEO – informacje o robotach na stronie

SEO
Logi serwera

Każda strona internetowa umieszczona na serwerze może generować logi, logi te w zależności od opcji hostingowych są domyślnie włączone lub rzadziej należy je włączyć ręcznie. Logi zbierają wszelkie informacje związane z żądaniami, które zostały wysłane do serwera w odniesieniu do konkretnej strony internetowej. Jaki związek mają z SEO?

Logi serwera najbliższy związek w odniesieniu do SEO mają z robotami, które stronę www mogą zechcieć skanować. Roboty te to w większości narzędzia wyszukiwarek, ale znajdziemy wśród nich również roboty narzędzi analitycznych. Logi serwera mogą być gromadzone w zasobach hostingu w zróżnicowany sposób – najczęściej występują pod postacią paczek, w środku których możemy odnaleźć zwykłe pliki tekstowe możliwe do otworzenia oraz edycji w dowolnym edytorze. Logi serwera generują wiele zapisów w ciągu chociażby jednej doby, z tego względu ich ręczna analiza jest raczej niewykonalna – chyba, że szukamy jakiegoś konkretnego zapisu. Do analizy logów wykorzystuje się dedykowane narzędzia, które zestawiają dane z zapisów pod postacią wykresów, tabelek i tak dalej. Informacje, które zawarte są w kolejnych wierszach logów zbudowane są podobnie i wiele zapisów powtarza się, tutaj dla przykładu robot Google’a, który gromadzi dane na temat zdjęć:

Googlebot-Image

Jak widać, roboty zapisują informacje na temat swojej tożsamości, co pozwala łatwo rozpoznać źródło ruchu.

googleusercontent robot

Na powyższym zrzucie przedstawiony jest ruch, który pochodzi od użytkowników wykorzystujących Google Translate w czytaniu zawartości.

google-proxy robot

Dane na temat tego robota świadczą o obecności kolejnego robota skanującego zawartość – tym razem całą zawartość adresu.

Analiza logów serwera

Jak wspomniałem wyżej, ręczna analiza logów serwera mija się z celem, lepiej wykorzystać do tego dedykowane narzędzia. W zrzutach, które zaprezentuję poniżej, wykorzystałem narzędzie WebLog Expert. Toole do analizy logów generalnie są drogimi narzędziami, ale do podstawowej analizy mniejszej ilości zasobów może nam wystarczyć na przykład SEO Log File Analyser. W wersji darmowej ma pewne ograniczenia, ale do mniejszych stron starcza, zwłaszcza wtedy jeżeli analizujemy tylko jeden projekt. Wersja bez limitów kosztuje 99 funtów rocznie. WebLog Expert kosztuje 399 dolarów na licencję bezterminową. Różne narzędzia mają różne ograniczenia, ale żeby nie rozwodzić się za bardzo nad tym tematem, po prostu odsyłam Was do wyczerpującej publikacji na ten temat. Tak czy owak, w moim artykule posłużę się dwoma toolami, o których już napisałem.

Po wrzuceniu logów do WebLog Expert ukaże nam się cały raport na temat ruchu na stronie. Ja analizowałem okres od 31.10 do 8.11 włącznie. Wykresów, tabelek i przeróżnych danych jest wiele, pozwoliłem sobie wskazać te ciekawsze.

boty na stronie
Powyższy wykres przedstawia dzienny ruch na stronie – wizyty oraz zdarzenia. W powyższym przypadku krzywa prawie się zazębia.
boty w czasie
Na tym zrzucie widzimy aktywność w logu w okresie kilku dni.

Jeżeli jesteśmy zainteresowani „harmonogramem” pracy robotów, możemy sprawdzić rozkład godzin, w których nas odwiedzają:

boty wg godzin

Istotnym elementem crawlowania strony, a w konsekwencji analizy logów serwera jest przepustowość (czy inaczej: transfer). Na poniższym zrzucie znajduje się krzywa wskazująca na wahania w zużywaniu transferu:

Transfer wg logów serwera

Według logów serwera, po stronie poruszają się różne boty (na wykresie poniżej 6 najbardziej pracowitych): Bing Robot, Googlebot, AhrefsBot, YandexBot, DotBot (Moz) oraz MJ12bot (Majestic). Potwierdza się zatem teza na temat skanowania zasobów strony do „mózgu” wyszukiwarek oraz wewnętrznych zasobów narzędzi analitycznych. Tak wygląda to w przypadku mojej strony:

Różne boty wyszukiwarek oraz narzędzi analitycznych w logach serwera

Tutaj większy wykaz robotów:

Wszystkie roboty w logach serwera

A jeszcze dalej, dokładny, wraz z precyzyjną liczbą działań:

Lista robotów na stronie

Jak widać, strona skanowana jest także przez roboty, które gromadzą informacje o stronach polskich raczej tylko w celach czysto porządkowych, nie w celu dodania strony do macek algorytmów – np. Baidu czy Seznam. Z ciekawości sprawdziłem czy moja strona wyświetla się w Baidu na hasło „radek skowron„:

Radek Skowron Baidu
Moja strona nie jest widoczna w chińskim Baidu ani w top 5, ani top 10, ani nawet top 50 – dalej nie sprawdzałem. Wyświetlają się jednakże inne strony, który zawierają tę frazę.

Uznałem, że warto jednak wpisać frazę drugi raz, może tym razem w trybie incognito:

Radek Skowron wyniki w Baidu

I nagle strona jest widoczna, nie znam algorytmu tej wyszukiwarki więc trudno mi wskazać, co wpłynęło na szybką „zmianę zdania”.

Wróćmy jednak do znanych nam robotów, skupimy się teraz na crawlerach Google’a. Na poniższym zrzucie widać adresy uszeregowane od najczęściej skanowanego:

Googlebot

W odniesieniu do konkretnych adresów, także tych, które działają w „backendzie”, możemy sprawdzić co generalnie odwiedzają roboty oraz które z nich:

admin-ajax

Tutaj widać, że boty chętnie sprawdzają plik admin-ajax.php, który na WordPressie odpowiada za rozpoznawanie działania wtyczek i motywów.

Chętnie crawlowane są również zdjęcia (widok folderów):

crawlowanie katalogów

Co bardzo ważne, sprawdzany jest plik robots.txt – jego właściwa optymalizacja to podstawa:

pobieranie robots

Osobiście korzystam z takiego rozwiązania jak poniżej, nie koliduje ono z działaniem żadnego robota:

robots plik


Przejdźmy teraz do danych, które możemy uzyskać z narzędzia SEO Log File Analyser. Informacje przedstawione na wykresach i tabelach są już bliższe temu co interesuje osoby pracujące z SEO.

Dla przykładu, narzędzie to pozwala nam sprawdzić, które przetworzone adresy posiadają pożądany kod odpowiedzi:

Log File Analyser

Pod wykresem widzimy typy kodów odpowiedzi, które w graficznej formie przedstawione zostały na wykresie. Ważne jest, abyśmy zobaczyli jak najwięcej ruchu na stronach z kodem 2xx oraz ewentualnie 3xx (w zależności od tego czy użyliśmy przekierowań wewnętrznych). Błędy 4xx (czyli zwykle 404) lub 5xx to już informacja o potrzebie poprawek na stronie. O ile błąd 4xx może być rozwiązany dość szybko to błędy 5xx mogą wymagać pracy nad problemami technicznymi uniemożliwiającymi np. zupełne załadowanie strony. Błędy 5xx to jednak rzadkosć.

W moich logach program nie wykrył błędów:

Brak błędów 5xx

Narzędzie, podobnie jak WebLog Expert pokazuje wiele informacji na temat robotów na stronie, przede wszystkim ich nazwy, czas wejścia, ilość wizyt, cel (zeskanowane zasoby) czy IP. Tutaj widzimy informacje na temat adresów URL oraz ilości skanów:

wizyty robotówW narzędziu łatwo sprawdzimy, który bot jest najbardziej ruchliwy i ile razy wykonał jakąś pracę:

boty na blogu

Sprawdzimy także IP konkretnych botów:

bing bot

Bota można rozpoznać po samym IP. W CMD wystarczy użyć komendy nslookup [adres_IP] aby poznać właściciela. W przypadku IP zaczynających się od 157. mamy pewność, że skanuje nas Bing (…search.msn.com):

roboty bing

Szybko możemy zatem stworzyć listę zaufanych IP. Wystarczy wyeksportować listę IP do pliku w Excelu, przefiltrować i gotowe.

Wykorzystując omawiane narzędzie, możemy również sprawdzić crawlowanie zdjęć w obszarze zawartości strony:

crawlowanie zdjęć

Mogłoby się wydawać, że duża liczba skanów konkretnego zdjęcia to wyższa pozycja w wyszukiwarce, ale czy tak jest…Na moim przykładzie widać, że w ostatnim czasie Googlebot nie skanował zdjęć, za to Bingbot tak i to chętnie. Sprawdźmy czy postanowił je podnieść w swoim rankingu:

Zdjęcia na Bing.com

Wow, nie spodziewałem się tego, rzeczywiście jestem pierwszy (BTW: na Google też 🙂 ) W przypadku zdjęcia dotyczącego darmowego kursu UX już tak dobrze nie jest. Użyłem tam jednak jakiegoś przypadkowego alt textu, więc może w tym tkwi problem. Poprawiłem to, zobaczymy za jakiś czas czy wynik się zmieni.

Ciekawą sprawą w LFA jest możliwość wykrycia stron sierotek (orphan pages).

orhpan pages

Aby je wykryć najpierw musimy zrobić crawl Screaming Frogiem, a potem przesłać plik do Log File Analyser. Wybranie opcji „HTML” w widoku „Not in URL Data” wskaże na URLe, które nie są nigdzie podlinkowane. Niektóre z nich mogą mieć kod 301 (przekierowanie stałe), inne mogą nie być podlinkowane wewnętrznie – warto to sprawdzić na swoich stronach. Szczegóły na temat tego mechanizmu, a także innych opcji dostępne są w obszernym poradniku na stronie producenta.


Na koniec wywodów odnośnie LFA, chciałbym przedstawić ciekawą tezę, która powstała właśnie na bazie logów serwera. Na poniższym zrzucie widać najpopularniejsze w logach adresy URL, jednym z nich (zaznaczony kolorem) jest artykuł, który dwukrotnie modernizowałem:

popularna strona

Stworzony został pod koniec października 2017 roku, zmodernizowany został dwukrotnie w kwietniu 2018.

8 tricków w Google

Podczas okresu w wersji #1 wygenerował 415 odsłon, zmiana #2 – krótka – wygenerowała ich 27. Po kolejnej zmianie (#3), odsłony wzrosły:

11 tricków w Google

Modernizacja artykułu musiała napędzać zmiany w rankingu Google, a zmiany w rankingu oczywiście przynoszą więcej odsłon. Obecnie daje to 3 lokatę na frazę „szukanie w google” oraz w TOP10 dla wielu innych long taili.

szukanie w google wyniki w rankingu

Domniemywać można, że modernizacja strony, a tym samym wzrost pozycji może napędzać także ruch robotów Google (bo to głównie one skanują ten adres). Wydaje mi się, że dobrym testem byłoby dokonanie modernizacji tekstów, które została napisane dawno, ale są często skanowane przez Googlebota, kto wie czy nie przyniesie to lepszych rezultatów w SEO.


Podsumowanie

Analizowanie logów serwera pod kątem SEO to wcale nie taka trudna rzecz jak mogłoby się wydawać. Na moim przykładzie dość skromnej liczby skanów zasobów przez roboty, pokazałem, że można wyłuskać ciekawe informacje na temat tego, co wyszukiwarkę interesuje, a co nie. Możemy dowiedzieć się gdzie jest problem z indeksowaniem, a gdzie roboty nie mogą się dostać. Możemy sprawdzić kto nas skanuje i jak często. Możliwości jest wiele, ale z pewnością należy zacząć od zainstalowania oprogramowania dedykowanego temu celowi. Link do zestawieniu takich tooli zamieściłem na początku tekstu. Na stronie LFA znajdziecie także wykaz innych ciekawych tekstów na temat tego jak należy analizować logi serwera oraz co to ma wspólnego z SEO. Jest to element technicznego SEO wymagający skupienia, researchu oraz dużego zasobu danych – big data? – czemu nie, im więcej danych, tym więcej wniosków.

Ostatnio zmodyfikowano: 28 listopada 2018

Radek

Z marketingiem internetowym związany od 2014 roku. Specjalizuje się w SEO oraz komunikacji wizerunkowej. Zainteresowany UX, designem, programowaniem oraz innowacyjnymi technologiami.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Załaduj więcej z działu SEO