Feeds per robots.txt von Suchmaschinen ausschließen
21. April 2006 von Michael | Webmaster/CMS/Blog
Update – aktualisierter Artikel: Feeds von Suchmaschinen ausschließen
Einige CMS und Blog-Systeme bieten automatisch RSS-Feeds zu einzelnen Artikeln an, beispielsweise erhält man in WordPress den Feed zum Artikel, wenn man „/feed/“ an die URL anhängt.
Problem
Verlinkt man diese Feed-URLs in den jeweiligen Artikeln um den Besuchern einen Mehrwert zu bieten, so werden diese auch von Suchmaschinen indiziert. Für Suchmaschinenbenutzer ist es aber sehr lästig, wenn unter den Treffern auch Links zu RSS- oder Atom-Feeds vorkommen.
Lösung per nofollow
Ich hatte ich hatte vor ein paar Tagen in Nofollow-Attribut sinnvoll eingesetzt bereits beschrieben, wie man Feeds und auch andere Seiten von Suchmaschinen per nofollow-Attribut ausschließen kann.
Lösung per robots.txt
Meine Idee war aber ursprünglich, die robots.txt und nicht das nofollow-Attribut dafür zu nutzen. Allerdings ist es in der robots.txt lt. Spezifikation nicht erlaubt, per Wildcard Unterverzeichnisse und/oder Dateien auszuschließen.
Nun bietet aber der Service Google Sitemaps (Google-Account erforderlich) die Möglichkeit, robots.txt entsprechend zu Testen. Man kann dort beliebige robots.txt-Inhalte einfügen und URLs eingeben, die gegen die robots.txt getestet werden.
Ich habe dort mal die lt. Spezifikation unerlaubte Zeile Disallow: */feed/ eingefügt und zwei Feed-URLs eingetragen, hier das Ergebnis:
Die URLs werden also zuverlässig blockiert. Auf diese Lösung kam ich übrigens über das WordPress.org Forum.
Fazit
Google akzeptiert also auch entgegegen der robots.txt-Spezifikation Wildcards, um Unterverzeichnisse oder einzelne Dateien vor dem Indizieren auszuschließen. Damit kann man für Google zuverlässig Feeds ausschließen. Allerdings ist unbekannt, wie sich hier andere Suchmaschinen verhalten, was aber eher zu vernachlässigen ist, da nach wie vor Google von den meisten Anwendern verwendet wird. Wer ganz sicher gehen möchte, sollte m.E. die Kombination aus nofollow und robots.txt verwenden.
Update – aktualisierter Artikel: Feeds von Suchmaschinen ausschließen
Was ist ein Trackback?
1 Trackback/Ping:
1
Google Blogsearch und Indizierung von RSS-Feeds — Software Guide
Pingback vom 10. Juli 2006, 22:29