Robots.txt files en robot metatags |
|
|
|
| Geschreven door Administrator-dessie-2011 |
| donderdag, 12 augustus 2010 14:45 |
|
1. Een robots.txtfile gebruiken
Een robots.txt file gebruikenHet robots.txt-bestand wordt in de root van je website directory geplaatst. Je kunt hier bijvoorbeeld direct aangeven welke spiderbot je liever niet langs ziet komen. Bijvoorbeeld: User-agent: Googlebot Disallow: / In dit geval betekent de / achter disallow dat de gehele webserver root directory niet geindexeerd mag worden door Google. Googlebot is de user-agent van Google. Andere user-agents mogen de website wel geheel indexeren. Maar omdat Google de belangrijkste is zul je bovenstaande code niet vaak gebruiken! Google leest niet alleen een “disallow’, maar ook een ‘allow”. Zo kun je bijvoorbeeld ook aangeven dat Googlebot bepaalde bestanden niet mag lezen terwijl dat de AdSense bot de advertenties wel mag indexeren. Allow en disallow komen daardoor vaak samen voor. Als er niets staat betekent dit een “allow” en dat betekent dat spiderbots dus alle pagina's mogen indexeren. Robot metatags in je html bestand plaatsenOok is het mogelijk om in je bestaande html-bestand door middel van een meta-tag het attribuut “robots” op te nemen. Je kunt gebruik maken van de commando’s “index”, “follow”, ‘noindex” en “nofollow”. Bijvoorbeeld: <meta name="robots" content="nofollow, noindex"> Deze tag geeft aan of de links op de pagina gevolgd mogen worden, en of de webpagina mag worden opgenomen in de index van een zoekmachine. Follow en index worden door zoekmachines genegeerd dus je hoeft deze metatags alleen te gebruiken als het nofollow of noindex is. Waarom een webpagina niet indexeren?Robot.txt bestanden hebben niets te maken met secret files. Zoekmachines kunnen de betreffende webpagina niet lezen en indexeren hem daarom niet. Maar gewone bezoekers van je website kunnen ze wel lezen. Waarom zou je dan toch bepaalde pagina’s uitsluiten? Bijvoorbeeld om een van de volgende redenen:
Robots.txt file of robot metatags?Hoewel beide manieren goed zijn kun je toch beter een robots.txt file gebruiken in plaats van robot metatags in je bestaande html-bestanden. Dus ook al mogen spiderbots al je webpagina’s indexeren, upload dan toch een lege robots.txt. Voor het indexeren van je website maakt dit niets uit, maar voor bandbreedte redenen wel! Namelijk elke keer dat een spiderbot geen robots.txt kan vinden, krijg je een 404 en dit betekent lange error logs. Als je website een beetje PageRank heeft dan komen spiderbots vaker langs en om dataverkeer te besparen kun je dan het beste altijd een robots.txt op je webserver zetten. Valideer je robots.txt
Met behulp van een tool als Robots.txt Checker kun je eenvoudig je robots.txt valideren. Ook kan dit met bijvoorbeeld Google Webmaster Central doen maar dan moet je wel eerst inloggen bij je account bij Google. |
| Laatst aangepast op maandag, 05 december 2011 18:19 |