Fisierele “robots.txt” si “sitemap.xml” sunt elemente de care trebuie sa tinem seama, pentru ca un site sa fie corect indexat de catre motoarele de cautare. Daca acestea nu sunt corect sau complet configurate, este posibil ca robotii sa indexeze pagini sau fisiere care nu ar trebui sa apara in paginile rezultatelor de cautare sau, dimpotriva, pot fi blocate la indexare pagini importante din site.
Cum se foloseste fisierul Robots.txt pentru SEO
Ca regula generala, fisierul “robots.txt” nu ar trebui folosit niciodata pentru a gestiona continutul duplicat. Exista pentru asta modalitati/comenzi mult mai potrivite.
Comenzile de tipul “disallow” din fisierul “robots.txt” sunt puternice si trebuie folosite cu mare atentie. Folosirea acestora pentru a bloca URL-uri nu le va impiedica sa fie afisate de catre Google in paginile rezultatelor de cautare. Continutul blocat prin comenzile din “robots.txt” poate aparea in paginile de rezultate ale cautarilor, URL-ul blocat fiind afisat fara “title”.
Cand Googlebot apare ca “user agent”, toate regulile precedente sunt ignorate si sunt aplicate regulile care urmeaza. De exemplu, comanda “Disallow” se aplica tuturor robotilor:
- User-Agent: *
- Disallow: /
Totusi, acest exemplu de comenzi se aplica diferit pentru fiecare user agent, ca Googlebot:
- User-Agent: *
- Disallow: /
- User-Agent: Googlebot
- Disallow: /cgi-bin/
Trebuie sa avem grija cand dorim sa blocam o parte din continutul site-ului. Folosirea sintaxei urmatoare va bloca directorul in intregime si tot ce e in el (inclusiv directoarele si elementele urmatoare):
- Disallow: /folder-of-stuff/
Este acceptata si folosirea limitata a comenzilor cu sintaxa regulata. Putem folosi wildcards pentru a bloca tot continutul cu o extensie specifica, de exemplu, cum ar fi urmatoarea comanda, care va bloca continutul de tip PowerPoint:
- Disallow: *.ppt$
Pentru indexarea corecta a continutului/paginilor unui website si mai ales monitorizarea evolutiei indexarii, este util sa folosim Google Webmaster Tools si Bing Webmaster Tools, tag-ul “meta robots” si “x-robots-tag” din header. Pentru evitarea indexarii continutului duplicat, este mai eficient tag-ul “rel canonical”.
Comanda Allow este foarte utila, mai ales cand vrem sa blocam indexarea unor URL-uri in baza unei scheme in care orice URL care se termina cu “?” e indexat (Allow) si orice URL care are “?” undeva in structura sa este blocat (Disallow):
- User-agent: *
- Allow: /*?$
- Disallow: /*?
In timp ce “robots.txt” va creea aceste listari de evitat, folosirea “meta robots noindex” va impiedica aceste URL-uri sa apara in index, chiar si atunci cand exista link-uri care duc spre ele. Totusi, folosirea oricarei metode (“meta noindex” sau “robots.txt” –> “disallow”) creeaza un zid care impiedica un tratament egal al link-urilor si al textului-ancora, si implicit poate afecta in mod negativ indexarea si pozitionarea site-ului in paginile de rezultate, daca nu sunt corect folosite.
Capcane comune in fisierul Robots.txt
Trebuie sa ne asiguram ca fisierele CSS nu sunt blocate in “robots.txt”. Din motive similare, “javascript assets” care ajuta la redarea continutului “rich” nu ar trebui incluse in comenzile “disallow”, pentru ca pot provoca probleme legate de afisarea corecta a paginilor web.