Technical SEO

Žurnalo analizė įmonės SEO sprendimams

Žurnalo analizė parodo, ką paieškos sistemos iš tikrųjų daro jūsų svetainėje, o ne tai, ką SEO įrankiai numano. Tai greičiausias būdas rasti švaistomą šliaužimo biudžetą, suprasti, kodėl svarbūs puslapiai ignoruojami, ir patikrinti, ar techniniai pataisymai pakeitė „Googlebot“ elgseną. Naudoju serverių žurnalus, Python įrankius ir įmoninę SEO analizės eigą, kad įvertinčiau realų rodyklių (crawlers) aktyvumą skirtingose svetainėse – nuo 100 tūkst. URL iki 10 mln.+ URL. Ši paslauga skirta komandoms, kurioms prieš keičiant architektūrą, šablonus, vidinę nuorodinę ar indeksavimo taisykles reikia įrodymų.

50M+
log lines processed in large audits
3x
crawl efficiency improvement achieved
500K+
URLs per day indexed on optimized programs
80%
manual analysis time reduced with automation

Greita SEO įvertinimo užklausa

Atsakykite į 4 klausimus — gaukite personalizuotą rekomendaciją

Kokio dydžio yra jūsų svetainė?
Kokia jūsų didžiausia SEO problema šiuo metu?
Ar turite atskirą SEO komandą?
Kaip skubiai reikia pagerinti SEO?

Sužinokite daugiau

Kodėl logų failų analizė yra svarbi 2025–2026 m. techniniam SEO

Dauguma svetainių vis dar priima nuskaitymo (crawl) sprendimus remdamosi prielaidomis iš crawlerių, puslapių ataskaitų ir atrinktų informacijos suvestinių. Tai naudinga, tačiau tai nėra tas pats, kas pamatyti, kaip „Googlebot“, „Bingbot“ ir kiti pagrindiniai crawleriai realiai prašo jūsų URL iš serverio. Žurnalo failų (log file) analizė užpildo šią spragą. Ji parodo, ar robotai 40% užklausų skiria filtruotiems puslapiams, pasenusiems parametrams, „soft 404“ šablonams, paveikslėlių URL arba mažos vertės puslapiavimui, kol piniginius puslapius (money pages) užtrunka dienomis ar savaitėmis, kol jie vėl būna nuskaityti. Didelėse svetainėse šis skirtumas turi įtakos atradimui, atnaujinimo (refresh) dažniui ir tam, kaip greitai pakeitimai praeina į indexavimo (indexation) pokyčius. Dažnai šį darbą derinu su techniniu SEO auditu ir svetainės architektūros peržiūra, nes crawl elgsena yra tiesioginis architektūros, vidinės nuorodų struktūros, canonicals, peradresavimų (redirects) ir atsako apdorojimo rezultatas. 2025-2026 m., kai svetainės publikuoja dideliu mastu ir didėja AI turinio apimties konkurencija, komandos, kurios supranta realų crawlerių elgesį, įgyja pamatuojamą pranašumą.

Ignoruoti žurnalo (logs) analizę paprastai nepastebima, kol reitingai nepradeda stagnuoti arba pradeda slinkti indeksavimo aprėptis. Svetainė gali turėti stiprius šablonus, bet vis tiek prarasti našumą, nes paieškos sistemos vėl ir vėl atsiduria ties peradresuotais URL, fasetinių kombinacijų variantais, pasibaigusių galimų nukreipimų (landing pages) puslapiais arba sekcijomis, kurios nebevertos skirti naršymo (crawl) išteklius. Enterprise eCommerce ir marketplace tipo projektuose dažnai matau, kad 20%–60% botų veiklos yra iššvaistoma URL adresams, kurie niekada neturėtų būti ryškūs naršymo taikiniai. Tas švaistymas vėluoja pakartotinius perindeksavimus kategorijų puslapiuose, didelės maržos produktuose, lokalizuotose sekcijose ir naujai paleistuose šablonuose. Be to, tai užmaskuoja pagrindines priežastis, kurias lengva praleisti įprastiniuose SEO įrankiuose, pavyzdžiui, botų spąstus, sulūžusius hreflang maršrutus, nenuoseklų 304 elgesį arba vidines nuorodas, kurios nukreipia robotus į mažos vertės kilpas. Jei konkurentai jau investuoja į konkurentų analizę ir enterprise eCommerce SEO, jie gerina atradimo greitį, kol jūsų svetainė prašo Google išteklius skirti netinkamose vietose. Žurnalų analizė neaiškius „crawl budget“ pokalbius paverčia pamatuojamais sprendimais, susietais su prarastu matomumu ir pajamomis.

Privalumas didelis, nes naršymo (crawl) optimizavimas duoda kaupiamą efektą. Sumažinus švaistymą, pagerinus atsako nuoseklumą ir nukreipus autoritetą į strategines URL vietas, svarbūs puslapiai bus naršomi greičiau, atnaujinti puslapiai bus peržiūrimi dažniau, o indeksavimas taps nuspėjamesnis. Per 41 e.komercijos domeną 40+ kalbų mačiau, kad sprendimai, paremti logais, prisideda prie +430% matomumo augimo, 500K+ URL per dieną indeksuojama didelėse programose, o po architektūros ir vidinių nuorodų (internal linking) pakeitimų pasiekiama ryškių pagerėjimų naršymo efektyvume. Mano dėmesys nėra tiesiog bendras „dashboard“ su gražiais grafikaiss. Tai veikianti diagnostika: kurie robotai pasiekia ką, kaip dažnai, su kokiais status kodais, iš kokių user agent’ų, per kokius katalogus, kokie yra modeliai (patterns), kalbos ir šablonai (templates) ir kas turėtų būti keičiama pirmiausia. Ši metodika natūraliai dera su puslapio greičio optimizavimu, schema & structured data ir SEO ataskaitomis & analitika, nes naršymo elgsena yra techninio SEO vykdymo centre. Jei valdote svetainę, kurioje mastelis sukuria triukšmą, log failų analizė suteikia aiškiausią tikrovės vaizdą.

Kaip atliekame žurnalo failų analizę – metodika, įrankiai ir validavimas

Mano požiūris prasideda paprasta taisykle: naršymo (crawl) problemos turi būti įrodytos faktiniais duomenimis, o ne išvedamos iš nuomonių. Daugelis SEO tiekėjų nuskenuoja svetainę, pastebi tam tikrą šabloną ir iš karto pereina prie rekomendacijų. Aš mieliau patikrinu, ar paieškos sistemos iš tiesų skiria laiką būtent tam šablonui ir ar ši problema yra svarbi serverio lygmeniu. Tai svarbu todėl, kad teorinė problema, kuri paveikia 50 URL, labai skiriasi nuo realaus naršyklės „prarajos“ (crawler sink), paveikiančios 12 milijonų užklausų per mėnesį. Naudoju pasirinktinį (custom) parsavimą ir automatizaciją, o ne statinius šablonus, nes didelės svetainės retai telpa į standartinius „dashboard’us“. Dalis šio darbo kuriama pasitelkiant Python SEO automatizavimą, kuris leidžia man apdoroti logus, klasifikuoti URL šablonus, papildyti įrašus ir sugeneruoti pakartojamus rezultatus suinteresuotoms šalims. Rezultatas – ne tik ataskaita, bet ir sprendimų sistema, kuri gali toliau veikti svetainę vystant.

Technologijų rinkinys priklauso nuo duomenų apimties, prieglobos aplinkos ir klausimo, į kurį reikia atsakyti. Mažesniems projektams gali pakakti suparsintų logų eksportų kartu su Screaming Frog, serverio pavyzdžiais ir Google Search Console. Įmonių (enterprise) aplinkose paprastai dirbu su BigQuery, Python, Pandas, DuckDB, serverio eksporto duomenimis, CDN logais ir API užklausomis iš GSC, kad sujungčiau naršymo užklausas su indekso aprėptimi, sitemap’o priklausomybe, canonical logika ir našumo duomenimis. Taip pat naudoju pasirinktinius crawlerius ir segmentavimo katalogus arba šablonus, kad galėtume palyginti botų elgseną su numatyta informacijos architektūra. Kai reikia, kuriu anomalijų aptikimą dėl užklausų pikų, statuso kodo pokyčių arba netikėtos botų koncentracijos plonesnėse atkarpose. Tai daro SEO ataskaitas ir analitiką gerokai naudingesnes, nes informaciniai skydeliai nustoja pranešinėti tik simptomus ir pradeda pranešinėti priežastis. Be to, tai padeda prioritetizuoti inžinerinius darbus naudojant skaičius, kuriais pasitiki produktų ir vystymo (development) komandos.

AI yra naudinga šiame procese, tačiau tik tinkamose vietose. Naudoju Claude ir GPT modelius, kad padėčiau suformuoti šablonų žymas (pattern labeling), pateikti logų taksonomijos pasiūlymus, apibendrinti anomalijas ir generuoti dokumentaciją dideliems incidentų rinkiniams. Neleidžiu modeliui nuspręsti, ar nuskaitymo (crawl) šablonas yra svarbus, nepatikrinus duomenimis. Žmogiškas vertinimas išlieka būtinas, kai susiduriama su milijonais URL, kelių tipų botais ir išimtiniais atvejais, pavyzdžiui, kai yra sumaišytos canonical taisyklės arba pasenę (legacy) peradresavimai. Geriausias AI panaudojimas – paspartinti klasifikavimą, klasterizavimą ir komunikaciją, kad daugiau laiko būtų skiriama diagnostikai ir įgyvendinimo planavimui. Todėl ši paslauga dažnai derinama su AI & LLM SEO darbo procesais, kai klientai nori greičiau operatizuoti techninį SEO, nepakenkiant tikslumui. Kokybės kontrolė apima atsitiktinius patikrinimus pagal žalius logus, user-agent validaciją, šablonų atrankas (pattern sampling) ir sutikrinimą su nuskaitymo (crawl) bei indekso duomenimis prieš galutinai pateikiant rekomendacijas.

Skalavimas keičia viską analizuojant žurnalo (log) duomenis. 5 000 puslapių brošiūros tipo svetainėms paprastai pakanka trumpos diagnostikos, o 10M+ URL svetainėms reikia tvirto atrankos ir segmentavimo (sampling ir segmentation) metodo. Šiuo metu dirbu su programomis, kur atskiri domenai gali generuoti apie 20M URL ir turėti nuo 500K iki 10M indeksuotų puslapių, dažnai keliomis dešimtimis kalbų. Tokiu mastu net ir nedidelė klaida priskiriant filtruojamas kategorijas (faceting), canonical žymas (canonicals) ar vidines nuorodas (internal links) gali sukurti milijonus beprasmių užklausų. Todėl metodika apima prioritetų nustatymą pagal sekcijas, kalbų lygmens skaidymą, šablonų grupes (template groups), verslo vertės lygius (business value tiers) ir pakartotinio nuskaitymo (recrawl) dažnio analizę bėgant laikui. Dažnai log analizę derinu su tarptautiniu SEO ir svetainės architektūra, nes regioniniai šablonai ir URL struktūros dažnai paaiškina, kodėl kai kurios klasterių grupės (clusters) yra nuskaitytos agresyviai, o kitos ignoruojamos. Tikslas – kad nuskaitymo išteklių paskirstymas atitiktų verslo prioritetus, o ne tik techninį tvarkingumą.

Įmonės žurnalo failų analizė – kaip realiai atrodo crawl biudžeto optimizavimas

Standartinės žurnalų (log) apžvalgos nesuveikia mastu, nes jos sustoja ties viršutinio lygio ataskaitomis. Vien tai, kad diagrama parodo, jog Googlebot praėjusį mėnesį pateikė 8 milijonus užklausų, savaime nėra veiksmo pagrindas. Įmonių lygio svetainėms reikia suprasti, kurios iš tų 8 milijonų užklausų buvo svarbios, kurios buvo išvengiamos, kaip jos pasiskirstė pagal šablonus ir kalbas, ir kas pasikeitė po diegimo (deployment). Sudėtingumas labai greitai didėja, kai prie to prisideda keli subdomenai, regionų aplankai, filtruojama (faceted) navigacija, pagal feed’us generuojami puslapiai, pasenę produktų archyvai ir nenuosekli redirect (peradresavimo) logika iš senų sistemų. Vienoje svetainėje gali būti šimtai panašių vienas į kitą atrodngų nuskaitymo (crawl) modelių ataskaitoje, tačiau realiai jie elgiasi skirtingai. Be klasifikavimo ir prioritetizavimo komandos taiso matomas problemas ir palieka brangiai kainuojančias, bet ne taip aiškiai matomas. Štai kodėl log failų analizę laikau integruotos techninės sistemos dalimi kartu su migration SEO, svetainės kūrimu + SEO ir programiniu SEO įmonėms.

Dažnai reikia individualių sprendimų, nes paruoštos ataskaitos retai pateikia atsakymus į klausimus, kuriuos užduoda įmonių vadovai. Rašau Python skriptus ir struktūrizuotus duomenų rinkinius, kad pagal verslo logiką klasifikuočiau URL, o ne vien tik pagal kelio (path) šablonus. Pavyzdžiui, prekyvietei gali reikėti paskirstyti naršymo (crawl) elgseną tarp ieškomų vietovių kombinacijų, tiekėjų puslapių, redakcinių centrų ir pasibaigusio inventoriaus būsenų. El. komercijos svetainei gali reikėti atskirti aktyvius produktus, neprieinamus (out-of-stock) produktus, tėvų–vaikų variantus, filtrų puslapius ir vidinės paieškos rezultatus 40+ kalbų. Kai ši logika sukurta, galime palyginti „prieš“ ir „po“ būsenas su realiu tikslumu. Viename projekte sumažinus naršymo poveikį mažos vertės parametrų kombinacijoms ir sustiprinus vidinę nuorododarą link strateginių kategorijų, per ketvirtį pavyko patrigubinti naršymo efektyvumą prioritetinėse srityse. Kitame projekte, remiantis logais atliktas peradresavimų „redirect waste“ išvalymas ir sitemap taikymas padėjo didelio masto programoje indeksuoti 500K+ URL per dieną. Būtent tokie operaciniai rezultatai susieja šią paslaugą su eCommerce SEO ir semantinio branduolio kūrimu, o ne palieka ją kaip izoliuotą techninį uždavinį.

Komandinis įsiliejimas yra ten, kur gera logų analizė tampa naudinga. Kūrėjams reikia konkrečių detalių, o ne bendrų įspėjimų. Produktų vadovams reikia poveikio pagrindimo, o ne „botų teorijos“. Turinį kuriantiems specialistams svarbu žinoti, ar jų skyriai yra randami (discoverable) ir ar atnaujinami tinkamu dažniu. Todėl dokumentuoju įžvalgas taip, kad kiekviena komanda galėtų imtis veiksmų: inžinerijos užduotys su URL šablonų pavyzdžiais ir patvirtinimo žingsniais, SEO santraukos su numatomu crawl ir index poveikiu, bei vadovybei skirti apžvalginiai vaizdai, rodantys, kokių pokyčių matomume ar operaciniame efektyvume galima tikėtis. Taip pat skiriu laiko žinių perdavimui, nes klientas turi suprasti, kodėl rekomendacija svarbi, o ne tik ką įgyvendinti. Štai kodėl klientai taip pat kviečia mane į SEO mokymus ir SEO mentoriavimą & konsultavimą po techninių projektų. Tinkama logų analizė turėtų palikti organizaciją geriau gebančią savarankiškai priimti crawl sprendimus.

Šio darbo rezultatai yra kaupiami, tačiau jie seka realistišku laiko grafiku. Per pirmas 30 dienų vertė paprastai atsiranda dėl aiškumo: nustatant didžiausią švaistymą, patvirtinant prielaidas ir randant greičiausius didelės įtakos sprendimus. Per 60–90 dienų, po peradresavimų, vidinių nuorodų, sitemap prioritetų, robots taisyklių ar parametrų tvarkymo korekcijų, turėtumėte pradėti matyti sveikesnį nuskaitymo (crawl) pasiskirstymą ir trumpesnius svarbių sekcijų pakartotinio nuskaitymo (recrawl) vėlavimus. Per 6 mėnesius nauda dažnai pasireiškia geresne indexavimo (indexation) nuoseklumo, stipresniu pajamų puslapių atnaujinimo elgesiu (refresh) ir mažiau techninių netikėtumų po atnaujinimų (releases). Per 12 mėnesių didžiausia nauda – operacinė drausmė: komandos nustoja kaupti „crawl debt“, nes gali tai greitai pamatuoti. Lūkesčius nustatau atsargiai, nes ne kiekviena logų problema iš karto duoda pagerėjusius reitingus, tačiau beveik kiekviena rimta įmonės (enterprise) svetainė gauna naudos atgaudama švaistytus nuskaitymo resursus. Tikslingi rodikliai priklauso nuo verslo modelio, tačiau užklausų efektyvumas (request efficiency), pakartotinio nuskaitymo cikliškumas (recrawl cadence), įtraukimas į indeksą (index inclusion) ir organinis našumas pagal sekcijas (section-level organic performance) paprastai yra pagrindinis rinkinys.


Rezultatai

Kas įtraukta

01 Žalių serverio žurnalų surinkimas ir normalizavimas per Apache, Nginx, IIS, Cloudflare, CDN ir apkrovos balansavimo eksportus, kad analizė prasidėtų nuo pilno nuskaitymo įrašo, o ne nuo pavyzdžio.
02 Googlebot ir kitų naršyklių tikrinimas, kad būtų atskirti tikri paieškos variklio užklausų srautai nuo apsimetusių botų, triukšmingų įrankių ir vidinio monitoringo srauto.
03 Nuskaitymo dažnio analizė pagal katalogą, šabloną, kalbą, atsako kodą ir verslo prioritetą, siekiant parodyti, kur paieškos sistemos skiria dėmesį, o kur turėtų skirti.
04 Nuskaitymo biudžeto švaistymo aptikimas pagal parametrus, filtrus, rūšiavimą, puslapiavimą, peradresavimus, plonus puslapius, pasibaigusius URL ir pasikartojančių turinio klasterius.
05 Indeksavimo suderinamumo peržiūra, kuri palygina nuskaitytus URL su kanoniniais tikslais, XML svetainių žemėlapiais, vidinėmis nuorodomis ir Google Search Console atitinkamais šablonais.
06 Būsenos kodo pasiskirstymo žemėlapis, siekiant atskleisti lėtus 200 atsakymus, peradresavimo grandines, soft 404 elgseną, 5xx šuolius, pasenusius 301 tikslus ir su talpykla susijusias anomalijas.
07 Atskirų (orphan) puslapių aptikimas naudojant sujungimus tarp žurnalų, nuskaitymo eksportų, svetainių žemėlapių, duomenų bazių ir analitikos, kad paslėpti, bet vertingi URL būtų iškeliami ir pernaudojami nuorodomis.
08 Botų segmentavimas pagal įrenginio tipą, user agent šeimą, hostą ir nuskaitymo intenciją, kad būtų suprasta, kaip mobile-first ir specializuoti robotai elgiasi sudėtinguose infrastruktūros valdomuose portaluose.
09 Individualūs Python analizės procesai ir informacijos suvestinės pakartotiniam stebėjimui, o ne vienkartinės „spreadsheet“ lentelės — ypač svetainėms, turinčioms dešimtis milijonų užklausų.
10 Veiksmų planas, prioritetizuotas pagal verslo poveikį, inžinerinį sudėtingumą ir numatomą nuskaitymo naudą, kad kūrimo komandos tiksliai žinotų, ką pirmiausia pataisyti.

Procesas

Kaip tai veikia

Etapas 01
1 etapas: duomenų rinkimas ir aplinkos žemėlapis
1 savaitę apibrėžiu žurnalų (log) šaltinius, saugojimo laikotarpius, botų tipus ir verslo skyrius, kurie yra svarbūs. Kur įmanoma, surenkame 30–90 dienų žurnalų, patvirtiname formatus, identifikuojame proxy arba CDN sluoksnius ir nustatome, kurie host’ai, subdomenai ir aplinkos turi būti įtraukti arba neįtraukti. Taip pat sudarau sitemaps, canonical (kanoninių) modelių, šablonų grupių ir kritinių pajamų sekcijų žemėlapį, kad analizė atspindėtų verslo realybę, o ne vien tik žalią srauto (traffic) triukšmą. Rezultatas – aiškus duomenų įkėlimo (ingestion) planas ir tyrimui skirta naršymo (crawl) hipotezių sąrašas.
Etapas 02
2 etapas: analizavimas, praturtinimas ir segmentavimas
1–2 savaitę apdorojami žali žurnalai (raw logs) ir praturtinami URL klasifikacijomis, atsakymų grupėmis, kalbos ar rinkos identifikatoriais, puslapio tipo žymomis ir indeksavimo signalais, jei jie prieinami. Patikslinu pagrindinius user agentus, pašalinu nerelevantišką triukšmą ir segmentuoju užklausas pagal katalogą, užklausos parametrą (query parameter), atsako kodą (status code) ir šablono tipą. Būtent čia paprastai išryškėja paslėptas „švaistymas“: pakartotiniai paspaudimai (hits) į peradresavimus (redirects), parametrų kilpos (parameter loops), vaizdų keliai (image paths), pasenusios kategorijos arba puslapiavimo keliai (pagination paths), kurie nebeatitinka SEO tikslų. Rezultatas – diagnostinis duomenų rinkinys ir pirmo etapo įžvalgos, surikiuotos pagal poveikį.
Etapas 03
3 etapas: Modelių diagnostika ir rekomendacijų parengimas
2–3 savaitę prijungiu žurnalų elgseną prie šakninių priežasčių architektūroje, vidiniuose nuorodose, kanoniniuose (canonical), sitemap’uose, robots direktyvose, našume ir atvaizdavime. Rekomendacijos nepateikiamos kaip abstrakčios geriausios praktikos; kiekviena iš jų susiejama su nuskaitymo (crawl) modeliu, paveikta sekcija, numatomu užklausų kiekiu, verslo rizika ir tikėtinu rezultatu. Ten, kur aktualu, įtraukiu diegimo logiką kūrėjams, pavyzdžius, kaip pataisomas URL tvarkymas, ir prioritetizavimą pagal pastangų ir grąžos santykį. Rezultatas – parengtas vykdymui planas, o ne skaidrių rinkinys, kuris „numiršta“ po perdavimo.
Etapas 04
4 etapas: stebėsena, patvirtinimas ir iteracija
Pataisymams įėjus į viešą veikimą, patikrinu, ar pasikeitė botų elgsena per kitus nuskaitymo ciklus. Priklausomai nuo svetainės dydžio, tai gali reikšti 2–6 savaičių patvirtinimo laikotarpį, kurio metu stebime užklausų perskirstymą, pakartotinio nuskaitymo vėlavimą, būsenos kodų pokyčius ir indeksavimo atsaką. Klientams, kuriems reikalinga nuolatinė pagalba, kuriu periodinę stebėseną, kad pikai, regresijos ir nuskaitymo „driftas“ būtų pastebėti anksti. Šis etapas dažnai tampa [SEO atrankos ir mėnesinio valdymo](/services/seo-monthly-management/) dalimi komandoms, kurios nori, kad techninio SEO sprendimai būtų nuolat stebimi.

Palyginimas

Log failų analizės paslaugos: standartinis auditas vs. įmonės (enterprise) metodas

Matmenys
Standartinis požiūris
Mūsų požiūris
Duomenų apimtis
Peržiūri nedidelį logų pavyzdį arba bendruosius prieglobos eksporto failus su ribotu normalizavimu.
Apdoroja 30–90 dienų logus keliuose serveriuose, CDN, proksiuose ir subdomeniuose, su klasifikavimu pagal šabloną, kalbą ir verslo vertę.
Botų patvirtinimas
Daroma prielaida, kad kiekvienas Googlebotą primenantis užklausos pateikimas yra tikras.
Tikrina naudotojo agentus, filtruoja apsimetančius botus ir atskiria paieškos sistemų naršykles nuo stebėsenos įrankių bei kito triukšmo.
URL analizė
Grupuoja URL pagal tik plačius aplankus, todėl paslepiamos užklausų, fasetų ir šablonų (šabloninio lygmens) problemos.
Kuria pasirinktines URL taksonomijas, kad nuskaitymo (crawl) švaistymą būtų galima izoliuoti iki tikslių šablonų, taisyklių ir puslapių tipų.
Rekomendacijos
Pateikia bendrąsias geriausias praktikas, tokias kaip pagerinti nuskaitymo biudžetą arba sutvarkyti peradresavimus.
Kiekvieną rekomendaciją susieja su užklausų (request) apimtimi, paveikta skiltimi, pagrindine priežastimi, numatomu rezultatu ir įgyvendinimo detalėmis inžinerijos komandoms.
Matavimo kriterijus
Baigiasi po pristatymo ataskaitos.
Stebi pokyčius po įgyvendinimo: nuskaitymo (crawl) paskirstymą, pakartotinio nuskaitymo greitį, būsenų pasiskirstymą ir indeksavimo reakciją per ateinančius nuskaitymo ciklus.
Pasirengimas masteliui
Veikia gana gerai mažose svetainėse, tačiau prastėja esant kelių rinkų ar 10 mln.+ URL savybėms.
Sukurta įmonių e. prekybai, prekyvietėms ir daugiakalbėms aplinkoms su pasirinktiniais Python duomenų srauto (pipeline) sprendimais ir pakartojamu stebėjimu.

Kontrolinis sąrašas

Išsamus žurnalo failo analizės kontrolinis sąrašas: ką apžvelgiame

  • Paieškos sistemos roboto patikra ir segmentavimas – jei netikri robotai arba maišyti naudotojo agento duomenys užteršia analizę, jūsų komanda gali optimizuoti ne realaus roboto elgseną, o triukšmą. KRITINIS
  • Šliaužimo užklausų paskirstymas pagal katalogą, šabloną ir rinką – jei didelės vertės skyriai gauna mažą dalį užklausų, piniginių puslapių atradimas ir atnaujinimas vėluos palyginti su konkurentais. KRITINIS
  • Būsenos kodų pasiskirstymas ir anomalijos – dideli peradresavimų kiekiai, soft 404 klaidos, 5xx atsakymai arba pasenę 200 puslapiai švaisto naršymo (crawl) resursus ir mažina pasitikėjimą technine kokybe. KRITINIS
  • Parametrų, filtrų, rūšiavimo ir puslapių numeravimo atvaizdavimas – nekontroliuojamos kombinacijos dažnai yra didžiausias šliaužiojimo (crawl) resursų eikvojimo šaltinis dideliuose katalogų ir prekyvietės (marketplace) svetainių projektuose.
  • Vidinės paieškos ir seansais pagrįsti URL šablonai – jei paieškos robotai gali patekti į šias vietas, jie gali iššvaistyti tūkstančius užklausų puslapiams, kurie niekada neturėtų konkuruoti dėl skenavimo biudžeto.
  • Kanoniškumo suderinimas su nuskaitytais URL – jei robotai pakartotinai nuskaitys nekononiškas variacijas, jūsų kanoniškumo nustatymas gali atrodyti teisingas teoriškai, bet realybėje būti silpnas.
  • XML svetainės žemėlapio įtraukimas palyginti su realiu nuskaitymo elgesiu – jei strateginiai URL įtraukti, bet retai nuskenuojami, sitemap signalai ir architektūra nesutampa.
  • Atnaujintų puslapių pakartotinio indeksavimo vėlavimas – jei svarbūs puslapiai per lėtai peržiūrimi iš naujo, turinio atnaujinimai, akcijų/pasiūlos pasikeitimai ir techniniai pataisymai užtrunka ilgiau, kol atsispindi paieškos rezultatuose.
  • Sirotų ir nepakankamai susietų puslapių aptikimas – jei vertingi URL iš randami žurnaluose be aiškių vidinių atradimo kelių (strong), architektūra turi būti pertvarkyta.
  • Išleidimo poveikio stebėsena – jei po diegimų, migracijų ar CDN pakeitimų pasikeičia roboto elgsena, nuolatiniai žurnalų patikrinimai gali padėti laiku pastebėti SEO regresijas, prieš joms atsispindint reitinguose.

Rezultatai

Tikri rezultatai iš žurnalo failų analizės projektų

Įmonių e.komercija
3 kartus didesnis šliaužimo (crawl) efektyvumas per 4 mėnesius
Didelio katalogo svetainėje buvo pastebimas didelis botų srautas pagal parametrus generuojamose kombinacijose, o tuo pat metu senos (legacy) URL peradresavimas ir pagrindinių kategorijų puslapių peršliaužimas vyko per lėtai. Apjungiau žurnalų (log) analizę su svetainės architektūra ir techniniu SEO auditu, kad identifikuočiau švaistymą, perprojektuočiau vidinių nuorodų (internal linking) prioritetus ir sugriežtinčiau sitemap bei robots taisykles. Pritaikius pakeitimus, „Googlebot“ užklausos pakrypo į strategines kategorijas ir aktyvias produktų klasterių grupes, o žemos vertės URL užklausos smarkiai sumažėjo. Verslas gavo greitesnį prioritetinių puslapių atnaujinimą ir švaresnį kelią būsimiems kategorijų startams.
Tarptautinė rinka
500K+ URL per dieną indeksuojama po kaupiklio (crawl) išvalymo
Šis projektas apėmė labai didelę daugiakalbę platformą, kurioje skirtinguose rinkų aplankuose kaupiklio dėmesys (crawler focus) buvo nenuoseklus. Žurnaluose matėsi, kad robotai neproporcingai daug laiko praleido esant pasenusioms inventoriaus būsenoms, dubliuojant naršymo maršrutus ir „plonose“ (menkai išreikštose) regionų kombinacijose, o vertingi nusileidimo (landing) puslapiai keliomis kalbomis buvo apskrapinti (crawled) nepakankamai. Sukūriau segmentuotą analizės sistemą ir ją sujungiau su tarptautiniu SEO bei programiniu SEO įmonėms rekomendacijomis. Rezultatas – tikslingesnis kaupimo (crawl) srautas, greitesnis prioritetinių puslapių atradimas ir indeksavimo našumas, viršijantis 500K URL per dieną intensyvaus diegimo laikotarpiais.
Didelio masto mažmeninės prekybos platformos perkėlimas
+62% nuskaitymo dalis (crawl share) prioritetinėms šablonų struktūroms per 10 savaičių
Po platformos migracijos svetainė pranešė apie stabilius indeksavimo skaičius, tačiau organinis augimas sustojo. Log’ų analizė parodė, kad „Googlebot“ pakartotinai kreipdavosi į nukreiptus pasenusius maršrutus, dubliuojančias variantų URL struktūras ir mažos vertės filtruojamas (faceted) būsenas, sukurtas naujo kūrimo metu. Bendradarbiaudamas su migration SEO ir website development + SEO, sudariau probleminių atvejų žemėlapį, suprioritetizavau sprendimus ir patvirtinau pakeitimus po paleidimo. Per 10 savaičių prioritetiniai šablonai užėmė daug didesnę nuskaitymo veiklos dalį, o tai pagerino pakartotinio perindeksavimo (re-crawl) dažnumą ir padėjo post-migracijos atsigavimui paspartėti.

Susiję atvejų tyrimai

4× Growth
SaaS
Kibernetinio saugumo SaaS tarptautiniu mastu
Per 4 mėnesius nuo 80 iki 400 apsilankymų per dieną. Tarptautinė kibernetinio saugumo SaaS platforma...
0 → 2100/day
Marketplace
Naudotų automobilių turgavietė Lenkijoje
Nuo nulio iki 2100 kasdienių organinių lankytojų per 14 mėnesių. Pilnas SEO startas Lenkijos automob...
10× Growth
eCommerce
Prabangių baldų e. komercija Vokietijoje
Per 14 mėnesių nuo 30 iki 370 apsilankymų per dieną. Premium baldų e. komercija Vokietijos rinkoje....
Andrii Stanetskyi
Andrii Stanetskyi
Žmogus už kiekvieno projekto
11 metų sprendžiant SEO problemas kiekvienoje srityje — eCommerce, SaaS, medicinoje, marketplace‘uose, paslaugų versle. Nuo individualių auditų startuoliams iki kelių domenų įmoninių sprendimų valdymo. Rašau Python, kuriu dashboard’us ir atsakau už rezultatą. Jokių tarpininkų, jokių paskyrimų vadybininkų — tiesioginė prieiga tam, kas atlieka darbą.
200+
Įgyvendinti projektai
18
Industrijos
40+
Padengtos kalbos
11+
Metai SEO

Tinkamumo patikra

Ar log failų analizė tinkama jūsų verslui?

Įmonių elektroninės prekybos komandos, valdančios didelius katalogus, sudėtingus filtrus ir dažnus prekių atsargų pokyčius. Jei jūsų svetainėje yra šimtai tūkstančių ar net milijonai URL, žurnalai parodo, ar „Googlebot“ skiria laiką svarbiems produktų ir kategorijų puslapiams, ar tiesiog pasimeta dėl nereikalingo naršymo. Tai ypač vertinga kartu su enterprise eCommerce SEO arba eCommerce SEO.
Turgavietės ir portalai su nuolat kintančiu inventoriumi, vietovės puslapiai, pardavėjų puslapiai ir į paiešką panašios URL struktūros. Tokios įmonės dažnai slepia milžiniškus naršymo (crawl) neefektyvumus, kurie atsiranda dėl šabloninių puslapių generavimo, todėl logų analizė yra esminis diagnostikos žingsnis dar prieš pradedant platesnius portalo & turgavietės SEO darbus.
Daugiakalbės svetainės, kuriose vienose rinkose augimas vyksta sparčiai, o kitose rinkos išlieka nepakankamai įvertintos arba atnaujinamos lėtai. Kai valdote 10, 20 ar daugiau kalbų versijų, žurnalai parodo, ar nuskaitymo (crawl) paskirstymas atitinka rinkos prioritetus, ir ar hreflang arba nukreipimo sprendimai iškraipo nuskaitymo elgseną. Tokiais atvejais tai natūraliai dera su tarptautiniu SEO.
SEO ir produktų komandoms, besiruošiančioms migracijai, architektūros pokyčiams arba vykstančiai techninei valdymo kontrolei. Jei reikia įrodyti, kas turėtų būti keičiama pirmiausia, ir patvirtinti, kad leidimai pagerino naršyklės elgseną, žurnalų analizė pateikia įrodymų sluoksnį. Ji ypač naudinga, kai derinama su SEO kuravimu ir mėnesiniu valdymu, siekiant nuolatinės stebėsenos.
Netinka jums?
Labai mažos brošiūrų svetainės su mažiau nei keliomis tūkstančiais URL ir be reikšmingo naršymo sudėtingumo. Tokiu atveju dažniausiai daugiau vertės ir greičiau duos orientuotas išsamus SEO auditas arba techninis SEO auditas, nei atskiras log failų projektas.
Įmonės, ieškančios tik turinio planavimo, raktinių žodžių žemėlapių ar redakcinio augimo strategijos, be didelių techninių nuskaitymo (crawl) problemų. Jei pagrindinė jūsų problema yra temos taikymas, o ne indeksavimas ar švaistomas nuskaitymo biudžetas, pradėkite nuo raktinių žodžių tyrimo ir strategijos arba turinio strategijos ir optimizavimo.

DUK

Dažniausiai užduodami klausimai

Log failų analizė SEO srityje reiškia serverio arba CDN pateiktų žalių žurnalo įrašų peržiūrą, siekiant tiksliai suprasti, kaip paieškos sistemų robotai naršo svetainę. Ji padeda matyti, kuriuos URL robotai užklausia, kaip dažnai grįžta į skirtingas svetainės dalis, kokius statuso kodus gauna ir kur „švaistomas“ naršymo (crawl) biudžetas. Skirtingai nuo naršyklių imitavimo įrankių, logai atspindi realų robotų elgesį, o ne simuliaciją. Didelėms svetainėms tai dažnai yra aiškiausias būdas nustatyti, kodėl svarbūs puslapiai yra nepakankamai naršomi arba lėtai indeksuojami.
Kaina priklauso nuo duomenų apimties, svetainės sudėtingumo ir to, ar tai vienkartinis diagnostinis darbas, ar nuolatinio stebėjimo (monitoringo) sprendimas. Kompaktiškas projektas vienai svetainės daliai skiriasi nuo daugiakalbio verslo segmento su CDN ir serverių log’ais keliuose serveriuose. Pagrindiniai kainą lemiantys veiksniai yra log eilučių skaičius, saugojimo laikotarpis, infrastruktūros sudėtingumas ir kiek išsamios įgyvendinimo pagalbos reikia. Paprastai apimtį įvertinu peržiūrėjęs architektūrą, srauto srautus ir turimus duomenų šaltinius, kad rekomendacija tiksliai atitiktų verslo problemą. Taip užtikrinama, kad mokate už realiai reikalingą analizės lygį.
Pirmieji pastebėjimai paprastai išryškėja per 1–3 savaites nuo to momento, kai turimi log failai ir sutvarkyta prieiga. Konkretus poveikis priklauso nuo to, kaip greitai komanda įgyvendina reikiamus techninius pakeitimus ir kaip dažnai paieškos sistemos iš naujo peržiūri paveiktas svetainės sritis. Dideliuose tinklalapiuose nuskaitymo (crawl) paskirstymo pokyčius dažnai galima įvertinti per 2–6 savaites po pataisymų, o ryškesnė indeksacija ir matomumo (visibility) korekcijos gali užtrukti 1–3 mėnesius. Terminas būna trumpesnis, kai problema yra didelis nuskaitymo resursų švaistymas, ir ilgesnis, kai darbai palaiko platesnius architektūros patobulinimus.
Ne visada—tai atsako į skirtingus klausimus. Techninis SEO auditas parodo, kas svetainėje, remiantis jūsų nustatymais ir struktūra, atrodo kaip problema (pvz., klaidos, indeksavimo ar našumo spragos). Tuo tarpu logų analizė parodo, ką iš tikrųjų daro paieškos sistemos: kaip dažnai botai lankosi, kuriose URL dalyse ir kaip jie reaguoja. Daugeliui įmonių svetainių geriausias sprendimas yra abu metodai kartu: auditas padeda surasti galimas rizikas, o logai parodo, kurios jų svarbiausios realiame srautų ir naršymo elgesyje.
Mažiausiai man reikia neapdorotų serverio arba CDN logų, apimančių bent 30 dienų, tačiau didesnėms svetainėms ar sezoniškai dirbančiam verslui geriau 60–90 dienų. Papildomai labai praverčia Google Search Console eksporto duomenys, sitemap’ų failai, paieškos/robotų nuskaitymo (crawl) eksportai, URL duomenų bazės ir informacija apie svetainės architektūrą. Jei svetainė turi kelis host’us, reverse proxy, naudoja Cloudflare ar apkrovos skirstytuvus, šie sluoksniai turėtų būti iškart susisteminti. Tinkamas apibrėžimas (scoping) padeda nepraleisti užklausų, kurios geriausiai paaiškina SEO problemą.
Taip—dažniausiai nauda auga didėjant URL skaičiui ir svetainės architektūros sudėtingumui. e. komercijos, skelbimų, nekilnojamojo turto, kelionių ir kitų marketplace tipo verslai dažnai sukuria labai daug mažos vertės kombinacijų puslapių, kurios „suvalgo“ paieškos roboto dėmesį. Mačioje svetainėje su, tarkime, 200 puslapių, įprastinė audito analizė gali būti pakankama. Tačiau svetainėje su 2 milijonais produktų, filtrais ir regioniniais puslapiais log analizė dažnai tampa būtina, nes roboto elgsena tiesiogiai veikia indeksavimą ir pajamų potencialą.
Taip. Tai viena iš mano pagrindinių kompetencijų. Šiuo metu dirbu su didelėmis e. komercijos aplinkomis, apimančiomis 41 domeną 40+ kalbų kontekste, kur kiekvienam domenui sugeneruojama apie 20 mln. URL, o indeksuotų puslapių skaičius siekia nuo 500 tūkst. iki 10 mln. Domenui. Procesas pagrįstas segmentavimu, automatizavimu ir keičiamo mastelio apdorojimu, todėl analizė išlieka praktiška net tada, kai duomenų kiekis yra labai didelis.
Jei jūsų svetainė keičiasi dažnai, nuolatinis stebėjimas yra labai rekomenduojamas. Leidimai (release’ai), šablonų atnaujinimai, CDN pakeitimai, migracijos ir nauja fasetavimo (faceting) logika gali pakeisti naršyklių elgseną, kartais be aiškių įspėjamųjų ženklų reitinguose iš karto. Nuolatiniai arba mėnesiniai patikrinimai padeda laiku pastebėti nuskaitymo „švaistymą“ (crawl waste), būsenų anomalijas ir užklausų pokyčius, kol jie nepradeda mažinti matomumo. Stabilioms, mažoms svetainėms gali pakakti vienkartinės analizės, tačiau įmonių (enterprise) aplinkose verta atlikti periodinį patvirtinimą.

Kiti žingsniai

Pradėkite savo žurnalo failų analizės projektą jau šiandien

Jei norite sužinoti, kaip paieškos sistemos iš tikrųjų sąveikauja su jūsų svetaine, log bylų analizė yra tiesiausias kelias. Ji pakeičia spėjimus įrodymais, parodo, kur prarandamas crawl budžetas, ir suteikia inžinerinėms komandoms aiškų prioritetų sąrašą pagal poveikį. Mano darbas jungia 11+ metų įmonių lygio SEO patirtį, intensyvų techninės architektūros darbą 10M+ URL aplinkose ir praktišką automatizavimą, sukurtą naudojant Python ir AI pagalba paremtus darbo srautų sprendimus. Aš esu įsikūręs Taline, Estijoje, tačiau dauguma projektų yra tarptautiniai ir apima kelių rinkų SEO operacijas. Nesvarbu, ar valdote vieną didelį eCommerce domeną, ar daugiakalbių objektų portfelį — tikslas tas pats: užtikrinti, kad crawler elgsena padėtų verslo augimui, o ne su juo kovotų.

Pirmas žingsnis – trumpas apimties aptarimo skambutis, kurio metu peržiūrime jūsų architektūrą, log’ų prieinamumą, pagrindinius simptomus ir tai, ką jums reikia įrodyti viduje. Prieš susisiekiant jums nereikia tobulai paruoštų duomenų; jei log’ai egzistuoja bet kur jūsų sistemoje, paprastai galime sukurti tinkamą pradinį tašką. Po skambučio pateikiu duomenų reikalavimus, tikėtiną analizės gylį, terminus ir numatomą pirmą rezultatą. Daugeliu atvejų pradinė diagnostikos sistema gali pradėti veikti vos tik suteikiama prieiga, o pirmosios įžvalgos bus pasidalintos per pirmas 7–10 darbo dienų. Jei jau įtariate crawl waste, redirect loops arba nepakankamai aptrauktas (under-crawled) pinigines (revenue) generuojančias pages, tai tinkamiausias momentas tai patikrinti.

Gaukite nemokamą auditą

Greita jūsų svetainės SEO būklės analizė, techninės problemos ir augimo galimybės — be jokių įsipareigojimų.

30 min. strategijos skambutis Techninio audito ataskaita Augimo kelio planas
Užsisakykite nemokamą auditą
Susiję

Galbūt jums taip pat prireiks