Crawlabilitatea – ce este și cum optimizăm crawlarea sau accesarea site-ului de către Google?

În acest ghid, abordăm modul în care motoarele de căutare “scanează”, citesc sau crawlează site-urile, ce le blochează să ajungă la conținutul din paginile web și cum să rezolvăm aceste blocaje.

De asemenea, vom prezenta instrumente și soluții practice, pentru ca paginile site-ului să fie găsite, citite și clasificate de crawleri.

Capitole principale

1. Ce înseamnă crawlability sau crawlabilitate?

Crawlability sau crawlabilitate se referă la cât de ușor motoarele de căutare accesează un website!

Crawlabilitatea este capacitatea motoarelor de căutare de a accesa și naviga paginile site-ului nostru.

Posibilitatea motoarelor de căutare de a găsi și de a citi paginile din site – crawlability sau crawlabilitate – permite conținutului din paginile website-urilor să fie găsit de motoarele de căutare, indexat și afișat în rezultatele căutării.

Deși utilizatorii pot să acceseze pagini web direct prin linkuri, marcaje sau tastând URL-ul, motoarele de căutare nu le vor găsi sau nu le vor clasifica, decât dacă sunt crawlabile – dacă le găsesc și pot să le citească.

2. Crawling - cum scanează motoarele de căutare un website

Motoarele de căutare folosesc boți sau crawleri pentru a găsi conținut pe internet. Acești boți vizitează site-urile și urmăresc linkurile interne de la o pagină la alta, pentru a găsi și înțelege conținutul, apoi colectează informații pentru selecția finală de indexare și afișare în rezultatele căutărilor în Google.

Acest proces se numește crawling. Este primul pas în a face conținutul din paginile site-ului indexabil în baza de date a unui motor de căutare. De ce? Pentru că dacă o pagină nu este scanată, nu poate fi indexată, ceea ce înseamnă că nu va apărea în motoarele de căutare, precum Google.

Mutt Cutts, fostul șef al echipei Google, explica prin 2010 într-un mod foarte simplu și clar, cum funcționază boții Google și cum citesc ei site-urile noastre.

3. Ce tehnici ajută boții Google să scaneze paginile unui site

Pentru a ajuta boții motoarelor de căutare să scaneze complet și corect un website, sunt necesare 3 lucruri care să funcționeze împreună:

Un fișier sitemap XML care listează paginile importante din site – cum sunt homepage, paginile de produse sau de servicii, pagini cu articole în blog – astfel încât motoarele de căutare să găsească și să le indexeze.

Majoritatea platformelor CMS precum WordPress, Shopify, MerchantPro etc. generează automat aceste fișiere de indexare în format XML. Acestea se vor înregistra în Google Search Console, pentru a vedea câte pagini din site sunt indexate în Google.

Linkurile interne care leagă paginile site-ului între ele și ghidează Googlebot, pe măsură ce navighează pe site, exact cum ar face o persoană. Paginile fără linkuri interne sunt mai greu de găsit pentru motoarele de căutare și s-ar putea să nu fie indexate.

O structură clară a site-ului face acest conținut al site-ului de accesat, în două sau trei click-uri de la pagina de pornire (homepage). Dacă sunt in site pagini la care ajungi după multe clicuri, Googlebot le poate scana mai rar sau deloc.

crawlability-factori-indexare-site-google

Motoarele de căutare folosesc, de asemenea, liste de crawl – crawl queues, pentru a stabili ce pagini să viziteze și cât de des. Și aplică un buget de crawl, care limitează numărul de pagini scanate în timpul fiecărei vizite.

Site-urile mici și bine structurate sunt de obicei scanate integral. Site-urile mai mari sau cele cu linkuri nefuncționale (404 error sau 5xx error) ori pagini duplicate pot să consume acest buget de crawl limitat pe conținut de valoare scăzută și riscă să nu indexeze paginile importante ale site-ului.

Citește și: De ce este important un website pentru o firmă?

4. Cele mai frecvente probleme de crawlabilitate

Chiar și site-urile web bine concepute pot întâmpina probleme de crawlabilitate. Aceste probleme provin adesea din setări tehnice sau probleme de structură a site-ului, care împiedică Googlebot să găsească pagini importante din site.
crawlability-probleme-frecvente-indexare-site-google
Linkurile nefuncționale sunt hyperlinkuri care duc la o pagină care nu mai există sau nu poate fi găsită. Când un utilizator sau un motor de căutare accesează linkul, este redirecționat către o pagină de eroare (404 Not Found).
Acestea sunt pagini care nu au linkuri interne care să le lege de alte pagini din site. Dacă nimic nu duce la o pagină, Googlebot s-ar putea să nu o poată găsi (decât dacă este listată în fișierul XML).

Fișierul robots.txt spune motoarelor de căutare ce părți ale site-ului pot să fie scanate și indexate. În acest fișier, sunt folosite comenzi de blocare la indexare pentru paginile care nu trebuie să apară în rezultatele de căutări din Google, cum ar fi mediile de testare, instrumentele interne sau versiunile duplicate ale site-ului.

Când motoarele de căutare își trimit roboții pentru a explora un website, aceștia verifică mai întâi fișierul robots.txt pentru a căuta restricții.

Trebuie să fim atenți și să avem grijă să nu blocăm accidental pagini importante pe care vrem ca motoarele de căutare să le găsească – articolele de blog și paginile obișnuite ale site-ului.

De asemenea, deși robots.txt controlează crawlabilitatea (crawlability), nu influențează direct indexabilitatea site-ului. Motoarele de căutare pot descoperi și indexa în continuare pagini care sunt legate prin linkuri în alte site-uri web, chiar dacă acele pagini sunt blocate în fișierul robots.txt.

Ca să ne asigurăm că anumite pagini, cum ar fi paginile de destinație pay-per-click (PPC) și paginile de „mulțumire”, nu sunt indexate, vom implementa un tag „noindex” în codul sursă al paginilor respective.

Citește și: Ce este SEO tehnic? Elemente de bază și 10 tehnici de optimizare tehnică a unui website

Un tag noindex folosit în codul sursă al unei pagini din site indică motoarelor de căutare, precum Google, să nu o afișeze în rezultatele căutării.

Marketerii îl folosesc adesea pentru a bloca pagini de mulțumire, tablouri de bord interne sau versiuni duplicate ale unei pagini.

În timp ce fișierul robots.txt blochează scanarea, un tag noindex permite scanarea, dar indică motoarelor de căutare să nu includă pagina în rezultatele căutării.

Un tag canonical indică lui Google și altor motoare de căutare ce versiune a unui conținut similar să trateze ca fiind originală. Ajută la consolidarea semnalelor de clasificare pentru pagini cu un conținut similar, cum ar fi multiple pagini de produs care afișează același articol în culori diferite sau cu parametri de urmărire în URL.

Ambele tag-uri sunt utile, dar dacă le implementăm incorect, putem să blocăm accesarea și indexarea unor pagini importante din site.

Citește și: De ce este importantă optimizarea SEO pentru un magazin online?

Dacă o pagină necesită 4 sau mai multe clicuri pentru a fi accesată de pe homepage, poate fi mai dificil de găsit atât pentru utilizatori, cât și pentru motoarele de căutare. Acest lucru este cunoscut sub denumirea de adâncime de clic (click depth).

Adâncimea de clicuri (click depth) este numărul de clicuri necesare pentru a ajunge la o anumită pagină de pe pagina principală a unui site web.

Este un factor important atât pentru experiența utilizatorului, cât și pentru optimizarea motoarelor de căutare (SEO), deoarece paginile cu o adâncime de clicuri mai mică sunt considerate mai accesibile și au mai multe șanse să se claseze mai sus în rezultatele căutării.

Minimizarea adâncimii clicurilor îi ajută atât pe utilizatori, cât și pe crawlerele motoarelor de căutare să găsească conținut cu ușurință.

click-depth-seo-crawlabilitate-indexare-google

O structură de site “plat” menține conținutul important mai aproape de pagina de pornire, ideal în două sau trei click-uri de la pagina principală.

Paginile care sunt îngropate prea adânc pot fi scanate mai rar sau ratate complet, deoarece Googlebot urmărește link-uri începând de la pagina de pornire.

Cu cât este nevoie de mai mulți pași pentru a le accesa, cu atât este mai puțin probabil să fie considerate importante în timpul unei scanări.

Citește și: Am un site frumos, dar care nu vinde. Ce trebuie să fac?

5. Factori care blochează crawlerii să acceseze un site

Chiar dacă site-ul este bine structurat și are un sistem de linkuri interne bine optimizat, problemele tehnice pot împiedica în continuare motoarele de căutare să scaneze paginile. Aceste probleme sunt legate de setările serverului, de codul sursă al paginilor sau viteza de încărcare și nu sunt întotdeauna evidente prin simpla vizualizare a site-ului.

Iată câteva dintre cele mai frecvente probleme care afectează crawlabilitatea și indexarea site-ului:

Când site-ul este indisponibil sau supraîncărcat, poate returna o eroare de server. Dacă Googlebot întâlnește aceste erori prea des, poate reduce frecvența scanărilor site-ului.

Paginile care durează prea mult să se încarce pot fi ignorate sau scanate mai rar. Timpii lenți de încărcare irosesc bugetul de crawl și pot, de asemenea, afecta experiența utilizatorului.

Cauzele cele mai frecvemte sunt imagini foarte mari, linii de cod JavaScript sau CSS necomprimate, scripturi terțe excesive și performanța slabă a serverului.

Unele site-uri web folosesc JavaScript pentru a încărca dinamic conținut, cum ar fi afișarea filtrelor de produse, extinderea meniurilor sau afișarea conținutului fără a necesita un refresh al paginii.

Totuși, dacă informațiile cheie apar doar după rularea JavaScript și Googlebot nu le poate randa corect, acel conținut ar putea fi ratat în timpul scanării.

Este mai sigur pentru indexare, să folosim redarea pe server (server-side rendering) astfel încât conținutul important să se încarce în HTML-ul inițial, permițând boților să-l acceseze.

Un lanț de redirecționare apare atunci când un URL redirecționează către altul, care apoi redirecționează din nou. O buclă apare când redirecționările formează un model circular. Aceste modele pot confuza motoarele de căutare și pot bloca accesul la conținut.

De exemplu, pagina A redirecționează către Pagina B, care apoi redirecționează către Pagina C. Pagina C redirecționează în cele din urmă înapoi către Pagina A, creând o buclă. Acest lucru derutează motoarele de căutare și le poate împiedica să-ți acceseze conținutul.

Citește și: Am un website învechit și vreau unul nou. De unde să încep?

6. Cum să testăm și să monitorizăm crawlabilitatea site-ului

Nu trebuie să ghicim dacă site-ul nostru este crawlabil. Cu instrumentele potrivite, putem să vedem exact cum interacționează motoarele de căutare cu paginile site-ului. Aceste instrumente ne ajută să facem verificări regulate, să detectăm problemele din timp și să ne asigurăm că paginile din site sunt crawlabile și indexabile.

Google Search Console

Google Search Console este un instrument gratuit care arată ce pagini sunt indexate și care nu sunt. În raportul pentru Pagini (Pages) vedem URL-urile care sunt excluse la indexare și motivele.

De exemplu, dacă pentru o pagină din site avem precizarea „Scanată – momentan neindexată”, aceasta ar putea fi prea similară cu o altă pagină sau îi lipsesc linkuri interne.

Instrumentul de inspecție URL din Google Search Console

Putem să verificăm orice URL din site, pentru a vedea dacă este scanat și indexat. Acest instrument indică, de asemenea, dacă pagina este blocată, marcată ca noindex sau întâmpină probleme tehnice.

De exemplu, o pagină returnează la testarea în Google Search Console răspunsul „Descoperită – momentan neindexată”, din cauză că nu a fost legată de alte pagini din site.

Citește și: Cum folosim instrumentul de analiză site Google Search Console

Analiza jurnalelor serverului (Server log analysis)

Jurnalele serverului arată exact ce pagini au fost vizitate de Googlebot și cât de des. Deși această metodă este mai tehnică, este utilă pentru site-uri mari sau atunci când vrem să diagnosticăm tiparele de crawling și paginile ratate.

De obicei, putem să accesăm jurnalele serverului prin intermediul furnizorului de găzduire (hosting), al rețelei de livrare de conținut (CDN) sau al echipei de operațiuni a site-ului web.

Instrumente de raportare a crawlului

Instrumentul Site Audit de la Semrush oferă un raport de crawlabilitate care detectează linkuri rupte, tag-uri noindex și probleme ale fișierelor Sitemap.xml. De asemenea, oferă recomandări pentru remedierea acestora.

Instrumente precum Screaming Frog pot simula modul în care motoarele de căutare scanează site-ul și pot semnala probleme de crawlabilitate, cum ar fi linkuri rupte, lanțuri de redirecționare, metadate lipsă și pagini orfane.

Aceste rapoarte ne ajută să înțelegem cum navighează boții pe site-ul nostru și unde pot întâmpina probleme de crawlabilitate.

Citește și: Autoritate, Relevanță și Experiență – factori de ranking Google

7. Cum optimizăm crawlabilitatea site-ului?

Chiar dacă avem în paginile site-ului nostru un conținut foarte bun, motoarele de căutare tot au nevoie de ajutor pentru a găsi căile corecte de navigare în site. Modul în care legăm paginile între ele afectează în mod direct crawlabilitatea, indexarea și ranking-ul.

Tehnici prin care îmbunătățim legăturile interne, astfel încât crawlerii și utilizatorii navigheze ușor prin site:

O structură plată de navigare în site este o modalitate strategică de a organiza paginile, astfel încât majoritatea să fie la doar câteva click-uri distanță de homepage. Acest lucru ajută motoarele de căutare să scaneze conținutul complet și corect.

Linkurile interne plasate natural în articole de blog, în pagini de produse sau alte pagini din site ajută motoarele de căutare să înțeleagă cum se leagă, cum se completează paginile prin conținutul lor. De asemenea, îi mențin pe utilizatori mai mult timp în site.

Paginile care primesc mai multe linkuri interne pot să fie scanate mai frecvent și considerate mai importante de boții Google. Așadar, vom acorda o atenție deosebită paginilor valoroase, cum ar fi paginile de produse, prețuri sau de generare de lead-uri.

Prea multe linkuri care leagă pagini învechite sau mai puțin importante pot să afecteze bugetul de crawl și pot să deruteze motoarele de căutare, cu privire la ce pagini sunt importante și trebuie să fie indexate.

De exemplu, un blog care are zeci de linkuri către arhive de etichete goale, ar putea fi scanate de boții Google, în locul paginilor care au conținut evergreen, cu cele mai bune performanțe.

Citește și: Link-urile A Href – ce sunt și cum să le folosim

8. Crawlabilitate vs. Indexabilitate: diferența dintre ele

Acum știm că prin crawlabilitate înțelegem capacitatea motoarelor de căutare de accesa o pagină din site. Dar accesul singur nu este suficient.

Pentru ca o pagină să apară în rezultatele căutării, trebuie să fie și indexabilă, ceea ce înseamnă că motoarele de căutare au voie să o stocheze și să o includă în indexul lor.

  • Crawlabilitate = descoperire (Googlebot poate să găsească și să acceseze pagina?)
  • Indexabilitate = includere (Pagina din site poate să fie afișată în rezultatele căutării?)

O pagină poate fi crawlabilă, dar totuși să nu fie indexată dacă anumite semnale transmit motoarelor de căutare, precum Google, să o ignore.

Citește și: Tehnici SEO pentru creșterea traficului organic și îmbunătățirea ranking-ului Google

Ce factori pot să blocheze indexarea unei pagini web?

Chiar dacă o pagină este descoperită și scanată, nu va fi indexată dacă:

  • Include un tag noindex. Acest tag spune motoarelor de căutare: „Nu indexa această pagină!”. Este util pentru paginile private, paginile de mulțumire sau mediile de testare.
  • Un tag canonical indică altă pagină pentru indexare. Dacă pagina include un tag `rel=”canonical”` care face referire la un alt URL, Google și alte motoare de căutare îl pot trata ca pe un duplicat și pot alege să nu-l indexeze.
  • Conținutul este de calitate scăzută sau duplicat. Paginile care au conținut slab, repetitiv sau generat automat nu îndeplinesc adesea standardele de calitate ale motoarelor de căutare, cum ar fi Google, pentru indexare.
  • Este blocată prin meta tag-uri sau anteturi HTTP. Directivele tehnice – cum ar fi `X-Robots-Tag: noindex` – pot să blocheze indexarea, chiar dacă pagina este accesibilă (crawlabilă).
On Key
Bookisite
Prezentare generală

Acest site utilizează cookie-uri.

Folosim cookie-uri pentru a personaliza conţinutul și anunțurile publicitare, pentru a oferi funcții de reţele sociale şi pentru a analiza traficul. De asemenea, le oferim partenerilor de reţele sociale, de publicitate şi de analize informații cu privire la modul în care folosiţi site-ul nostru. Aceştia le pot combina cu alte informaţii oferite de dvs. sau culese în urma folosirii serviciilor lor.

Politica de confidențialitate