Feeds per robots.txt von Suchmaschinen ausschließen
21. April 2006 von Michael | Webmaster/CMS/Blog
Update – aktualisierter Artikel: Feeds von Suchmaschinen ausschließen
Einige CMS und Blog-Systeme bieten automatisch RSS-Feeds zu einzelnen Artikeln an, beispielsweise erhält man in WordPress den Feed zum Artikel, wenn man “/feed/” an die URL anhängt.
Problem
Verlinkt man diese Feed-URLs in den jeweiligen Artikeln um den Besuchern einen Mehrwert zu bieten, so werden diese auch von Suchmaschinen indiziert. Für Suchmaschinenbenutzer ist es aber sehr lästig, wenn unter den Treffern auch Links zu RSS- oder Atom-Feeds vorkommen.
Lösung per nofollow
Ich hatte ich hatte vor ein paar Tagen in Nofollow-Attribut sinnvoll eingesetzt bereits beschrieben, wie man Feeds und auch andere Seiten von Suchmaschinen per nofollow-Attribut ausschließen kann.
Lösung per robots.txt
Meine Idee war aber ursprünglich, die robots.txt und nicht das nofollow-Attribut dafür zu nutzen. Allerdings ist es in der robots.txt lt. Spezifikation nicht erlaubt, per Wildcard Unterverzeichnisse und/oder Dateien auszuschließen.
Nun bietet aber der Service Google Sitemaps (Google-Account erforderlich) die Möglichkeit, robots.txt entsprechend zu Testen. Man kann dort beliebige robots.txt-Inhalte einfügen und URLs eingeben, die gegen die robots.txt getestet werden.
Ich habe dort mal die lt. Spezifikation unerlaubte Zeile Disallow: */feed/ eingefügt und zwei Feed-URLs eingetragen, hier das Ergebnis:

Die URLs werden also zuverlässig blockiert. Auf diese Lösung kam ich übrigens über das WordPress.org Forum.
Fazit
Google akzeptiert also auch entgegegen der robots.txt-Spezifikation Wildcards, um Unterverzeichnisse oder einzelne Dateien vor dem Indizieren auszuschließen. Damit kann man für Google zuverlässig Feeds ausschließen. Allerdings ist unbekannt, wie sich hier andere Suchmaschinen verhalten, was aber eher zu vernachlässigen ist, da nach wie vor Google von den meisten Anwendern verwendet wird. Wer ganz sicher gehen möchte, sollte m.E. die Kombination aus nofollow und robots.txt verwenden.
Update – aktualisierter Artikel: Feeds von Suchmaschinen ausschließen



Was ist ein Trackback?
1 Trackback/Ping:
1
Google Blogsearch und Indizierung von RSS-Feeds — Software Guide
Pingback vom 10. Juli 2006, 22:29
10. Juli 2006 Im Beitrag Im Beitrag Feeds per robots.txt von Suchmaschinen ausschließen hatte ich beschrieben, wie man RSS-Feeds von Suchmaschinen ausschließt, da diese leider of…
4 Comments:
1
Alexander
10. Juli 2006, 21:52
Meine Beobachtung ist allerdings, dass man damit die Goolge-Blogsearch ausschliesst. Anscheinend ist es der gleiche Bot…
2
Michael (Author)
10. Juli 2006, 22:10
Danke für die Info, Alexander. Jetzt wo Du es sagst fällt es mir auch auf, so was doofes. Ich schreib gleich einen Beitrag darüber.
3
Martin
16. August 2006, 21:55
Gibt es eigentlich noch andere Suchmaschinen, die Feeds als reguläre Treffer anzeigen, obwohl sie mit diesen Dateitypen nichts anfangen können? Mir ist das eigentlich nur in meiner Zeit als Google-Nutzer aufgefallen (ich benutze schon seit längerem nahezu ausschließlich Clusty, siehe auch Wikipedia: Clusty). Meiner Meinung nach haben Feeds in normalen Suchergebnissen nichts zu suchen. Hier sollten die betroffenen Suchmaschinenbetreiber dran arbeiten.
Und gegen Indizierung hilft die robots.txt auch nicht vollständig, sondern nur gegen das Auswerten des Inhalts (darum ist bei HTML-Seiten eher die Benutzung von “noindex” im robots-Metatag sinnvoll). Bei bestimmten Anfragen tauchen die durch die robots.txt ausgeschlossenen URLs nämlich doch auf, wenn auch ohne Textauszug, da der Inhalt ja nicht bekannt ist. Da er aber nicht bekannt ist, gibt es auch deutlich weniger Treffer. Jedoch wird ja zumindest bei Google auch der Linktext ausgewertet, sodass man mit diesem auch den Feed finden sollte.
4
Tatort
23. April 2007, 0:41
Vielen Dank für den Tipp, ich habe ihn direkt umgesetzt. Mein Tipp ist aber noch ein paar der Typischen Robots auszusperren: http://tatort-fans.de/robots.txt einfach direkt anschauen ich aktualisiere unregelmäßig.
Die Kommentarmöglichkeit ist derzeit für diesen Artikel ausgeschaltet.