Feeds per robots.txt von Suchmaschinen ausschließen

21. April 2006 von Michael | Webmaster/CMS/Blog

Update – aktualisierter Artikel: Feeds von Suchmaschinen ausschließen

robots-txt Einige CMS und Blog-Systeme bieten automatisch RSS-Feeds zu einzelnen Artikeln an, beispielsweise erhält man in WordPress den Feed zum Artikel, wenn man „/feed/“ an die URL anhängt.

Problem

Verlinkt man diese Feed-URLs in den jeweiligen Artikeln um den Besuchern einen Mehrwert zu bieten, so werden diese auch von Suchmaschinen indiziert. Für Suchmaschinenbenutzer ist es aber sehr lästig, wenn unter den Treffern auch Links zu RSS- oder Atom-Feeds vorkommen.

Lösung per nofollow

Ich hatte ich hatte vor ein paar Tagen in Nofollow-Attribut sinnvoll eingesetzt bereits beschrieben, wie man Feeds und auch andere Seiten von Suchmaschinen per nofollow-Attribut ausschließen kann.

Lösung per robots.txt

Meine Idee war aber ursprünglich, die robots.txt und nicht das nofollow-Attribut dafür zu nutzen. Allerdings ist es in der robots.txt lt. Spezifikation nicht erlaubt, per Wildcard Unterverzeichnisse und/oder Dateien auszuschließen.

Nun bietet aber der Service Google Sitemaps (Google-Account erforderlich) die Möglichkeit, robots.txt entsprechend zu Testen. Man kann dort beliebige robots.txt-Inhalte einfügen und URLs eingeben, die gegen die robots.txt getestet werden.
Ich habe dort mal die lt. Spezifikation unerlaubte Zeile Disallow: */feed/ eingefügt und zwei Feed-URLs eingetragen, hier das Ergebnis:
Google robots.txt Test
Die URLs werden also zuverlässig blockiert. Auf diese Lösung kam ich übrigens über das WordPress.org Forum.

Fazit

Google akzeptiert also auch entgegegen der robots.txt-Spezifikation Wildcards, um Unterverzeichnisse oder einzelne Dateien vor dem Indizieren auszuschließen. Damit kann man für Google zuverlässig Feeds ausschließen. Allerdings ist unbekannt, wie sich hier andere Suchmaschinen verhalten, was aber eher zu vernachlässigen ist, da nach wie vor Google von den meisten Anwendern verwendet wird. Wer ganz sicher gehen möchte, sollte m.E. die Kombination aus nofollow und robots.txt verwenden.

Update – aktualisierter Artikel: Feeds von Suchmaschinen ausschließen

Software Guide

Die besten Tipps, Anleitungen und Downloads

Ihre Werbung auf Software Guide