Hur funkar robots.txt, Egentligen?

By Linus,

  Filed under: Blog
  Comments: Kommentarer inaktiverade för Hur funkar robots.txt, Egentligen?

En stilla tanke om robots.txt

Om robots.txt gör att en sida kan indexeras, men inte får besökas av en robot. Då borde inte roboten se sidans innehåll, men inte heller HTTP status. Vad händer då om någon länkar till en sida som inte finns? Kommer Google låta bli att indexera den för att statuskoden är 404 eller kommer Google aldrig ens att se statuskoden för att de inte får besöka sidan?

Om Google de facto struntar i status koden och indexerar sidan som det länkas till. Kan vi då ”injicera” sökresultat på andras webbplatser?

För att undersöka provar vi länka till två sidor som absolut inte finns och som är blockerade av robots.txt. Robots ser ut så här:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Vi tillåter inga robotbesök till mappen ”wp-admin” eller ”wp-includes”. Just därför länkar vi dit!

Nakenbilder

Näck

Denna sida är inskickad för återindexering hos Google via GWT. Nu väntar vi.

Så här såg sökresultatet ut 2014-10-14:
site-search: 180 resultat
nakebilder: 0 resultat
näck: 0 resultat

Comments are closed for this post.