Feeds von Suchmaschinen ausschließen
Dieser Artikel ist eine Zusammenfassung von den Blog-Artikeln Nofollow-Attribut sinnvoll eingesetzt, Feeds per robots.txt von Suchmaschinen ausschließen und Google Blogsearch und Indizierung von RSS-Feeds.
Letzte Aktualisierung: 03. August 2007
Inhalt
- Problemstellung
- Lösung per nofollow
- Lösung per robots.txt
- Lösung per content=“noindex“
- Fazit
- Weitere Informationen im Web
Problemstellung
Suchmaschinen wie etwa Google indexieren bei Webseiten nicht nur die eigentlichen Webseiten, sondern folgen in der Regel allen Links und indexieren damit auch RSS- oder Atom-Feeds. Das folgende Beispiel zeigt eine Suchergebnisseite in Google, wo an erster Stelle die eigentliche Webseite steht, und eingerückt darunter der Feed:
Lösung per nofollow
Die einfachste Lösung ist es, bei allen RSS-Links das Attribut ’nofollow‘ zu verwenden, Beispiel:
<a href="/feed.xml" rel="nofollow" title="Artikel-Feed">Feed</a>
Damit kann das rel=“nofollow“-Attribut, welches vielfach sehr negativ bewertet wird, sinnvoll verwendet werden, um Atom- und RSS-Feeds von Suchmaschinen auszuschließen.
Lösung per robots.txt
Hier bietet sich nun an, diese robots.txt auch zu verwenden, um Feed-Links zu sperren. Allerdings ist es lt. robots.txt-Spezifikation nicht erlaubt, per Wildcard (Platzhalter wie ‚*‘, etc.) Unterverzeichnisse und/oder Dateien auszuschließen.
Im Falle vom CMS und Blog-System WordPress werden die Feeds aber als Verzeichnisse angesprochen, z.B. ‚http://seite.de/feed/‚ oder ‚http://seite.de/blog/2006-12-01/hallo-welt/feed‚.
Der Service Google Sitemaps (Google-Account erforderlich) bietet unter Diagnostic > robots.txt analysis die Möglichkeit, robots.txt entsprechend zu Testen. Man kann dort beliebige robots.txt-Inhalte einfügen und URLs eingeben, die gegen die robots.txt getestet werden.
Ich habe dort mal die lt. Spezifikation unerlaubte Zeile Disallow: */feed/ eingefügt und zwei Feed-URLs eingetragen, hier das Ergebnis:
Die URLs werden also zuverlässig blockiert.
Nun besteht nur noch das Problem, dass damit auch der Hauptfeed http://seite.de/feed/ gesperrt wird, dies bewirkt nämlich, dass die Seite von Google Blogsearch ausgesperrt wird.
Aber auch dafür gibt es eine Lösung, man fügt einfach Allow: /feed/ hinzu:
User-agent: *
Disallow: */feed/
Allow: /feed/
Das bewirkt, dass der Hauptfeed, welcher unter http://seite.de/feed/ liegt, indexiert wird, nicht aber sämtliche Feeds der Artikel, wie etwa http://seite.de/2006-07-10/hallo-welt/feed/, diese bleiben außen vor.
Lösung per content=“noindex“
Gemäß dieser Aussage von Feedburner kann man folgenden Code dem Feed hinzufügen, um zu erreichen, dass dieser nicht mehr von Google und Yahoo indexiert wird:
<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />
Für das Blog-System WordPress gibt es dafür das Plugin NoIndex Feed.
Wenn man den Webdienst Feedburner nutzt, um damit den bzw. die Feeds der Webseite auszuliefern, so kann man in den Feedburner-Optionen unter Publicize > NoIndex das Indexieren des Feeds abschalten:
Dadurch wird ebenso o.g. Code dem Feed hinzugefügt.
Fazit
Die oben genannten Möglichkeiten verhindern wirkungsvoll, dass Google die Atom- und RSS-Feeds weiter indexiert.
Was ist ein Trackback?
8 Trackbacks/Pings:
1
Nofollow-Attribut sinnvoll eingesetzt — Software Guide
Pingback vom 17. Dezember 2006, 21:54