Feeds von Suchmaschinen ausschließen

Dieser Artikel ist eine Zusammenfassung von den Blog-Artikeln Nofollow-Attribut sinnvoll eingesetzt, Feeds per robots.txt von Suchmaschinen ausschließen und Google Blogsearch und Indizierung von RSS-Feeds.

Letzte Aktualisierung: 03. August 2007

Inhalt

Problemstellung
Lösung per nofollow
Lösung per robots.txt
Lösung per content=“noindex“
Fazit
Weitere Informationen im Web

Problemstellung

Suchmaschinen wie etwa Google indexieren bei Webseiten nicht nur die eigentlichen Webseiten, sondern folgen in der Regel allen Links und indexieren damit auch RSS- oder Atom-Feeds. Das folgende Beispiel zeigt eine Suchergebnisseite in Google, wo an erster Stelle die eigentliche Webseite steht, und eingerückt darunter der Feed:

Lösung per nofollow

Die einfachste Lösung ist es, bei allen RSS-Links das Attribut ’nofollow‘ zu verwenden, Beispiel:

<a href="/feed.xml" rel="nofollow" title="Artikel-Feed">Feed</a>

Damit kann das rel=“nofollow“-Attribut, welches vielfach sehr negativ bewertet wird, sinnvoll verwendet werden, um Atom- und RSS-Feeds von Suchmaschinen auszuschließen.

Lösung per robots.txt

In der robots.txt kann man festlegen, ob und wie die Webseite von einem Webcrawler besucht werden darf. Man hat damit die Möglichkeit, ausgewählte Bereiche der Webseite für Suchmaschinen zu sperren.

Hier bietet sich nun an, diese robots.txt auch zu verwenden, um Feed-Links zu sperren. Allerdings ist es lt. robots.txt-Spezifikation nicht erlaubt, per Wildcard (Platzhalter wie ‚*‘, etc.) Unterverzeichnisse und/oder Dateien auszuschließen.

Im Falle vom CMS und Blog-System WordPress werden die Feeds aber als Verzeichnisse angesprochen, z.B. ‚http://seite.de/feed/‚ oder ‚http://seite.de/blog/2006-12-01/hallo-welt/feed‚.

Der Service Google Sitemaps (Google-Account erforderlich) bietet unter Diagnostic > robots.txt analysis die Möglichkeit, robots.txt entsprechend zu Testen. Man kann dort beliebige robots.txt-Inhalte einfügen und URLs eingeben, die gegen die robots.txt getestet werden.
Ich habe dort mal die lt. Spezifikation unerlaubte Zeile Disallow: */feed/ eingefügt und zwei Feed-URLs eingetragen, hier das Ergebnis:
Google Sitemaps
Die URLs werden also zuverlässig blockiert.

Nun besteht nur noch das Problem, dass damit auch der Hauptfeed http://seite.de/feed/ gesperrt wird, dies bewirkt nämlich, dass die Seite von Google Blogsearch ausgesperrt wird.

Aber auch dafür gibt es eine Lösung, man fügt einfach Allow: /feed/ hinzu:

User-agent: *  
Disallow: */feed/
Allow: /feed/

Das bewirkt, dass der Hauptfeed, welcher unter http://seite.de/feed/ liegt, indexiert wird, nicht aber sämtliche Feeds der Artikel, wie etwa http://seite.de/2006-07-10/hallo-welt/feed/, diese bleiben außen vor.

Lösung per content=“noindex“

Gemäß dieser Aussage von Feedburner kann man folgenden Code dem Feed hinzufügen, um zu erreichen, dass dieser nicht mehr von Google und Yahoo indexiert wird:

<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />

Für das Blog-System WordPress gibt es dafür das Plugin NoIndex Feed.

Wenn man den Webdienst Feedburner nutzt, um damit den bzw. die Feeds der Webseite auszuliefern, so kann man in den Feedburner-Optionen unter Publicize > NoIndex das Indexieren des Feeds abschalten:

Dadurch wird ebenso o.g. Code dem Feed hinzugefügt.

Fazit

Die oben genannten Möglichkeiten verhindern wirkungsvoll, dass Google die Atom- und RSS-Feeds weiter indexiert.

Software Guide

Die besten Tipps, Anleitungen und Downloads

Ihre Werbung auf Software Guide