Robots.txt – Soluția conținutului duplicat

Astăzi, am primit un mail de la un cititor, intitulat Arhire S. care întreabă cum poate să evite indexarea conținutului duplicat de către motoarele de căutare. Deoarece m-am gândit că ar fi un subiect interesant și informativ, am zis să îl fac public.

Păi, pentru a-mi simplifica munca și a scăpa ușor, v-aș putea da modelul meu de Robots.txt pe care-l puteți folosi copy-paste și gata, dar, la urma urmei, ce folos dacă nu veți înțelege ce este acolo, sau de ce am procedat eu astfel.

Rolul principal al fișierului Robots.txt, ce se află în rădăcina blogului vostru (/www sau /subdomeniu), este să ghideze crawlerii motoarelor de căutare ce navighează spre site-ul vostru, având un singur scop: citirea și indexarea informațiilor găsite. Mai exact, acest fișier, va spune crawlerilor, ce să citească/indexeze și ce să nu, după cum îi impuneți prin câteva simple linii de cod.

Atribute Robots.txt
Disallow: /fișier – Această funcție este aplicată unor fișiere sau foldere, pe care nu le doriți a fi indexate de către motoarele de căutare.

Allow: /fișier – Exact inversul funcției Disallow. Funcția spune motoarelor de căutare să indexeze fișierele sau directoarele urmate de această sintaxă. În cazul în care este aleasă opțiunea Allow: / motoarele de căutare vor indexa tot conținutul de pe acel server.

Aici, se recomandă blocarea fișierelor/folderelor sursă WordPress sau Server. Cum? Prin următoarele linii de „cod”:
• Disallow: /cgi-bin
• Disallow: /wp-admin
• Disallow: /wp-includes
$ – Acest caracter, de regulă folosit ca și sufix pentru unele fișiere, spune motoarelor de căutare că acela este un fișier. În lipsa astuia, crawlerii pot avea parte de o confuzie, neștiind dacă este vorba de un folder cu o asemenea denumire sau un fișier.
Exemplu: Disallow: /*.css$

De ce blocarea fișierelor CSS?
După cum probabil știți, sau nu, mulți practicanți SEO sau mai bine zis practicanți SPAM, folosesc fișierele CSS pentru a ascunde keyword-uri în spatele sintaxelor de comentarii, /* Comentariu CSS */. Astfel, dacă acum ceva timp fișierele CSS nu erau inspectate de către crawlerii motoarelor de căutare, acum sunt.

Chiar dacă nu sunteți un Spammer, deși, un spammer nu ar bloca aceste fișiere, aceste fișiere ar trebui blocate deoarece oricum, crawlerii nu găsesc în ele conținut (Decât ăla SPAM) și drept urmare, nu au ce indexa.

Disallow: /category/ – De ce ați avea nevoie să indexați ceva aflat într-o categorie? Automat, ce se regăsește într-o categorie, se regăsește și în /Index sau în pagina destinată articolului respectiv. Deci, este o sursă „bună” de „dupicate content”. Nu aveți nevoie de așa ceva!

Disallow: /page/ – Asemeni categoriilor, de ce ați avea nevoie de indexarea Arhivei. Toate postările găsite în /page sau /Archive că e tot una, se găsesc ori în /index, pe prima pagină ori în pagina destinată articolului respectiv.

Disallow: /tag/ – Mulți folosesc aceste tag-uri la articole (Printre care și eu), iar aici, mă adresez numai acelora ce folosesc tag-urile postărilor individuale. Aceste tag-uri sunt prezente pe pagina postării respective, în Arhivă, pe prima pagină a blogului, în Tag Cloud (Facultativ) etc. De ce am avea nevoie ca ele să fie indexate din moment ce folosim (sau ar trebui să folosiți) AIO SEO Pack?! Unde aveți secțiune dedicată meta-keywordurilor (Care au o valoare mai scăzută pentru Google după cum știți).

Disallow: /feed/ – Pe scurt, Feed-urile sunt același conținut ca cel găsit pe blog, deci duplicat. Persoanele ce vor să citească un blog și pe care-l adaugă unui RSS Reader, nu au nevoie să vă găsească pe Google. De altfel, nici Crawlerii nu prea văd de ce ar avea nevoie să o facă. Deci, useless.

Blocarea fișierelor irelevante crawlerilor
Crawlerii nu ai voie să indexeze fișierele fără conținut destinat cititorilor. De ce? Am explicat mai sus pentru CSS. Tot ce vă spun, este că ați putea bloca accesul pentru următoarele tipuri de fișiere: /*.js$, /*.inc$, /*.css$, /*.txt$

Sitemap-ul
Pentru a ghida crawlerii către sitemap-ul vostru, la final, opțional, puteți adăuga și linia de mai jos. Bine, dacă aveți sitemap-ul adăugat în Webmasters Tools, nu ar trebui să mai adăugați și aici, însă, pentru că s-a demonstrat că nu afectează cu nimic, eu îl folosesc:
sitemap: http://regla.ro/sitemap.xml.gz

You May Also Like

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *