Software Guide

Die besten Tipps, Anleitungen und Downloads

Ihre Werbung auf Software Guide

Sie möchten in dieser Box oder an anderer Stelle dieser Webseiten eine Werbung schalten? Sehen Sie sich dazu am besten einfach mal die verschiedenen Möglichkeiten an.


Feeds per robots.txt von Suchmaschinen ausschließen

21. April 2006 von Michael | Webmaster/CMS/Blog

Update – aktualisierter Artikel: Feeds von Suchmaschinen ausschließen

robots-txtEinige CMS und Blog-Systeme bieten automatisch RSS-Feeds zu einzelnen Artikeln an, beispielsweise erhält man in WordPress den Feed zum Artikel, wenn man „/feed/“ an die URL anhängt.

Problem

Verlinkt man diese Feed-URLs in den jeweiligen Artikeln um den Besuchern einen Mehrwert zu bieten, so werden diese auch von Suchmaschinen indiziert. Für Suchmaschinenbenutzer ist es aber sehr lästig, wenn unter den Treffern auch Links zu RSS- oder Atom-Feeds vorkommen.

Lösung per nofollow

Ich hatte ich hatte vor ein paar Tagen in Nofollow-Attribut sinnvoll eingesetzt bereits beschrieben, wie man Feeds und auch andere Seiten von Suchmaschinen per nofollow-Attribut ausschließen kann.

Lösung per robots.txt

Meine Idee war aber ursprünglich, die robots.txt und nicht das nofollow-Attribut dafür zu nutzen. Allerdings ist es in der robots.txt lt. Spezifikation nicht erlaubt, per Wildcard Unterverzeichnisse und/oder Dateien auszuschließen.

Nun bietet aber der Service Google Sitemaps (Google-Account erforderlich) die Möglichkeit, robots.txt entsprechend zu Testen. Man kann dort beliebige robots.txt-Inhalte einfügen und URLs eingeben, die gegen die robots.txt getestet werden.
Ich habe dort mal die lt. Spezifikation unerlaubte Zeile Disallow: */feed/ eingefügt und zwei Feed-URLs eingetragen, hier das Ergebnis:
Google robots.txt Test
Die URLs werden also zuverlässig blockiert. Auf diese Lösung kam ich übrigens über das WordPress.org Forum.

Fazit

Google akzeptiert also auch entgegegen der robots.txt-Spezifikation Wildcards, um Unterverzeichnisse oder einzelne Dateien vor dem Indizieren auszuschließen. Damit kann man für Google zuverlässig Feeds ausschließen. Allerdings ist unbekannt, wie sich hier andere Suchmaschinen verhalten, was aber eher zu vernachlässigen ist, da nach wie vor Google von den meisten Anwendern verwendet wird. Wer ganz sicher gehen möchte, sollte m.E. die Kombination aus nofollow und robots.txt verwenden.

Update – aktualisierter Artikel: Feeds von Suchmaschinen ausschließen

Informationen zum Artikel:

Weiterblättern im Blog:

Was ist ein Trackback?

1 Trackback/Ping:

4 Comments:

Gravatar

1

Alexander

10. Juli 2006, 21:52

Meine Beobachtung ist allerdings, dass man damit die Goolge-Blogsearch ausschliesst. Anscheinend ist es der gleiche Bot…

Gravatar

2

Michael (Author)

10. Juli 2006, 22:10

Danke für die Info, Alexander. Jetzt wo Du es sagst fällt es mir auch auf, so was doofes. Ich schreib gleich einen Beitrag darüber.

Gravatar

3

Martin

16. August 2006, 21:55

Gibt es eigentlich noch andere Suchmaschinen, die Feeds als reguläre Treffer anzeigen, obwohl sie mit diesen Dateitypen nichts anfangen können? Mir ist das eigentlich nur in meiner Zeit als Google-Nutzer aufgefallen (ich benutze schon seit längerem nahezu ausschließlich Clusty, siehe auch Wikipedia: Clusty). Meiner Meinung nach haben Feeds in normalen Suchergebnissen nichts zu suchen. Hier sollten die betroffenen Suchmaschinenbetreiber dran arbeiten.

Und gegen Indizierung hilft die robots.txt auch nicht vollständig, sondern nur gegen das Auswerten des Inhalts (darum ist bei HTML-Seiten eher die Benutzung von „noindex“ im robots-Metatag sinnvoll). Bei bestimmten Anfragen tauchen die durch die robots.txt ausgeschlossenen URLs nämlich doch auf, wenn auch ohne Textauszug, da der Inhalt ja nicht bekannt ist. Da er aber nicht bekannt ist, gibt es auch deutlich weniger Treffer. Jedoch wird ja zumindest bei Google auch der Linktext ausgewertet, sodass man mit diesem auch den Feed finden sollte.

Gravatar

4

Tatort

23. April 2007, 0:41

Vielen Dank für den Tipp, ich habe ihn direkt umgesetzt. Mein Tipp ist aber noch ein paar der Typischen Robots auszusperren: http://tatort-fans.de/robots.txt einfach direkt anschauen ich aktualisiere unregelmäßig.

Die Kommentarmöglichkeit ist derzeit für diesen Artikel ausgeschaltet.

Blog-Kategorien

Volltextsuche

Neueste Artikel

Neueste Kommentare

Neueste Trackbacks/Pingbacks

Andere Projekte

Blogparade

dient als zentrale Anlaufstelle für Blog-Paraden bzw. Blog-Karnevals und andere von BloggerInnen veranstaltete Aktionen.

Mediadaten

Feed-Statistik:
Feedburner

Software Guide gibt es seit Dezember 2005 und es werden durchschnittlich 4 Blog- Beiträge/Monat veröffentlicht. Die Themenschwerpunkte sind in der Tagcloud ersichtlich. Mehr Infos...

Links

 

Nach oben

Wordpress

© 2005-2016 Software Guide | ISSN 1864-9599