Fisierul robots.txt: tot ce trebuie sa stii despre implementare si cum te ajuta in procesul de optimizare SEO

Aparent, un simplu fisier intr-un website, robots.txt este unul dintre cele mai importante elemente ale unui site, atat pentru motoarele de cautare, cat si pentru internautii care cauta doar anumite informatii din site.

Dincolo de aspectele legate de functionalitate si optimizarea SEO, fisierul robots.txt mai are o utilitatea – acesta ajuta administratorul unui site sa ii “spuna” lui Google ce pagini doreste sa fie indexate si care nu.

Pentru ca discutia cu privire la acest fisier este mai ampla, acest articol legat de robots.txt va oferi o imagine de ansamblu asupra functionalitatii acestui fisier, precum si o serie de sfaturi legate de implementare, pentru a evita problemele care pot aparea din cauza fisierul gresit.

Pentru inceput, ce sau cine este robots.txt?

Pentru o intelegere facila a conceptului, sa luam un scurt exemplu: sa ne gandim ca motoarele de cautare sunt ca o biblioteca vasta, din care avem nevoie sa extragem doar ceea ce ne intereseaza. Luand in considerare ca acestea cuprind milioane de pagini web din intreaga lume, Google, Yahoo, Bing sau alte motoare de cautare trimit „spideri” pentru a gasi pagini noi sau actualizari ale diverselor site-uri, cu scopul de a le adauga la indexul lor.
Altfel spus, primul lucru pe care motoarele il cauta sunt fisierele robots.txt, in care sunt specificate care dintre pagini vor sa fie citite si care nu. In cazul in care acest fisier nu exista in site, motoarele de cautare vor indexa mai toate paginile gasite.

Robots Exclusion Standard a fost dezvoltat incepand cu 1994, pentru a anunta diferitele motoare de cautare ce trebuie sa ia in considerare atunci cand inspecteaza un website. Desi robots.txt este confundat adesea cu “robots meta tags”, diferenta dintre cele doua este ca primul fisier opreste vizibilitatea anumitor pagini in motoarele de cautare, pe cand cel de-al doilea poate doar controla felul in care acestea sunt indexate.

Odata implementat un fisier robots.txt pe un site, acesta va opri motoarele de cautare sa indexeze fisiere, dosare sau link-uri cu date sensibile, precum un fisier word sau PDF alocat intr-un dosar secret.

Desi normele impuse de Robots Exclusion Standard sunt respectate de Google, Yahoo sau Bing, exista si altele, mai slabe sau programe suspecte, care nu iau in considerare normele stipulate si indexeaza ce vor.

Robots.txt este un simplu fisier plasat pe un server care ii indica lui Googlebot, spre exemplu, daca sa acceseze sau nu un anumit fisier. Acesta contine un protocol, cu set restrans de comenzi, prin intermediul carora se permite accesul la diferite sectiuni ale site-ului, asa cum se poate vedea in imaginea de mai sus.

Alte cateva exemple de fisierele robots.txt de pe site-urile mari:

Robots Google

Robots WordPress

Yoast

Cum arata un fisier robots.txt

Conform membrilor World Webmaster este de preferat ca fisierul robots.txt nu trebuie sa contina mai mult de 200 de linii de disallow si nici mai mult de 5000 de caractere. In cursul anului 2015, John Mueller, angajat al Google a anuntat ca “Daca ai un fisier robots.txt prea mare, aminteste-ti ca GoogleBot va citi doar primii 500 de kB. Daca fisierul tau robots.txt este mai lung, se poate intampla ca o linie sa fie taiata intr-un mod nedorit. Solutia cea mai simpla este sa reduci fisierul la o dimensiune potrivita”.

Robots.txt este un fisier de tip text, dupa cum se si observa din extensia lui, ceea ce inseamna ca poate fi editat in functie de preferinte. De retinut sunt urmatoarele:

folosirea literelor mici pentru creare fisierului – exclus Robots.TXT;
acesta trebuie incarcat in directorul de baza al website-ului;
daca se folosesc subdomenii, trebuie create fisiere robots.txt separat pentru fiecare dintre ele.

In principiu, in redactarea fisierul robots.txt Robots Exclusion Standard a stabilit doua directive standard si principale:

1. User-agent : defineste unui motor de cautare ca exista o regula de aplicat
2. Disallow : anunta un motor de cautare sa nu caute si sa indexeze un fisier, o pagina sau un dosar intreg.

Fisierul standard arata asa:

User-agent: [Parametrul in care se selecteaza robotii care sa indexeze site-ul]

Disallow: [URL-urile care nu se doresc indexate]

In fisierul robots.txt se recomanda si adaugare sitemap-ului printr-un link catre acest, de forma:

Sitemap: http://site.ro/sitemap.xml

Daca se doreste excluderea mai multor pagini sau directoare, se poate repeta folosirea parametrului “Disallow”. Se recomanda ca locatia zonei admin si alte zone private de pe site, sa nu fie incluse in robots.txt. Drept exemplu, daca se doreste excluderea directoarelor de tipul “wp-admin”, “admin”, “cgi-bin” si paginile “contact.html” si “despre.html”, fisierul robots.txt va fi de forma:

User-agent: *

Disallow: /wp-admin/

Disallow: /admin/

Disallow: /cgi-bin/

Disallow: /contact.html

Disallow: /despre.html

Daca nu se doreste indexarea site-ul de catre niciun robot (ceea ce, evident, nu este recomandat), fisierul robots.txt va avea forma:

User-agent: *

Disallow: /

Steluta (*) poate fi folosita la modul general cu User-agent pentru a indruma toate motoarele de cautare. De exemplu, se poate adauga ce urmeaza in fisierul robots.txt al site-ului pentru a bloca motoarele de cautare sa il indexeze in intregime.

Unele site-uri folosesc aceasta directiva fara bara oblica (/) pentru a declara ca site-ul poate fi indexat.

Pentru exluderea unui anumit motor de cautare, ca de exemplu Bing, iata care va fi transformarea robots.txt:

User-agent: Bing

Disallow: /

Pentru a permite un anumit sau anumite motoare de cautare:

User-agent: Yahoo

Disallow:

Iata o lista cu cativa dintre cei mai importanti spideri ai principalelor motoare de cautare:

Bingbot – Bing
Googlebot – Google
Googlebot-Image – Google Images
Googlebot-News – Google News
Teoma – Ask

Utilitatea robots.txt

Fisierul robots.txt va elimina, in primul rand, eroarea 404 atunci cand un robot nu il gaseste in website si va preveni mesajele de tipul “file not found”.

Diferenta intre un website cu fisier robots.txt activ si unul fara se poate vedea in imaginea de mai jos:

De cealalta parte, implementarea unui fisier robots.txt prezinta avantaje si in urmatoarele cazuri:

daca pe site sunt pagini sau directoare care nu se doresc sa apara in SERP
daca se doreste ignorarea paginilor duplicat – ideal in cazurile in care CMS-ul genereaza mai multe URL-uri pentru acelasi continut
daca se doreste ca rezultatele cautarii interne pe paginile site-ului sa nu fie indexate
pentru a le furniza motoarelor de cautare informatii cu privire la locatia sitemap-ului
pentru folosirea link-urilor platite sau a reclamelor care necesita instructiuni speciale pentru roboti
ajutor in urmarirea instructiunilor Google.

Cum afli daca fisierul robots.txt blocheaza pagini importante

O metoda pentru a vedea daca fisierul robots a fost scris corect si nu iti blocheaza pagini importante care n-ar fi trebuit interzise din indexare, este folosirea tool-ului gratuit: Google guidelines tool .

Daca ai acces, poti folosi verifica fisierul robots direct din Google Search Console.

Poate indexa google o pagina chiar daca este adauga in robots cu parametrul disallow?

Da! Se poate ca google si alte motoare de cautare sa indexeze un fisier chiar daca noi dorim blocarea lui prin adaugare lui in robots cu parametrul disallow. Pentru a fi sigur ca o pagina nu este indexata, este recomandat sa folosim meta tagul noindex.

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">.

Verificarea si testarea robots.txt

Pentru a verifica daca un site contine sau nu fisierul robots.txt trebuie doar adaugat “/robots.txt” la sfarsitul domeniului, ca in exemplu: www.siteulmeu.ro/robots.txt.

Insa pentru verificarea corectitudinii robots.txt sunt utilizate urmatoarele:

Google Webmaster Tools – dupa deschiderea acestuia, se apasa pe optiunea „Blocked URL's”, ca in imaginea de mai jos:

Aceasta unealta afiseaza continutul fisierului robots.txt din ultima copie pe care Google a gasit-o salvata in site. Daca fisierul a fost modificat, este foarte posibil sa nu apara momentan si, din fericire, se poate introduce orice cod se doreste in acea fereastra.

De cealalta parte, se poate testa acest fisier prin orice URL. Crawler-ul Googlebot este folosit sa testeze robots.txt in mod implicit. Totusi, se poate alege dintre alti 4 User-agents: Google-Mobile, Google-Image, Mediapartners-Google (Adsense) si Adsbot-Google (Adwords).

Rezultatul va evidentia daca este vreo eroare in fisierul robots.txt, precum trimiterea catre un sitemap care nu exista.

Concluzii

Cand un spider al unui motor de cautare acceseaza un site, se va uita mai intai daca exista acest fisier special in site, numit robots.txt. Acesta contine indicii pentru robotii de cautare (pentru toti sau pentru unii anume), legate de indexarea anumitor pagini din site.

Robots Exclusion Standard este o unealta care ajuta la crearea de fisiere robots.txt corecte, prin care motoarele de cautare sa inteleaga ce trebuie indexat si ce nu. De asemenea, fisierul robots.txt este foarte important pentru a bloca link-urile duplicate sau cele care nu sunt user- friendly.

Pentru voi cat de important este fisierul robots.txt?