Feeds von Suchmaschinen ausschließen
Dieser Artikel ist eine Zusammenfassung von den Blog-Artikeln Nofollow-Attribut sinnvoll eingesetzt, Feeds per robots.txt von Suchmaschinen ausschließen und Google Blogsearch und Indizierung von RSS-Feeds.
Letzte Aktualisierung: 03. August 2007
Inhalt
- Problemstellung
- Lösung per nofollow
- Lösung per robots.txt
- Lösung per content=”noindex”
- Fazit
- Weitere Informationen im Web
Problemstellung
Suchmaschinen wie etwa Google indexieren bei Webseiten nicht nur die eigentlichen Webseiten, sondern folgen in der Regel allen Links und indexieren damit auch RSS- oder Atom-Feeds. Das folgende Beispiel zeigt eine Suchergebnisseite in Google, wo an erster Stelle die eigentliche Webseite steht, und eingerückt darunter der Feed:

Lösung per nofollow
Die einfachste Lösung ist es, bei allen RSS-Links das Attribut ‘nofollow’ zu verwenden, Beispiel:
<a href="/feed.xml" rel="nofollow" title="Artikel-Feed">Feed</a>
Damit kann das rel=”nofollow”-Attribut, welches vielfach sehr negativ bewertet wird, sinnvoll verwendet werden, um Atom- und RSS-Feeds von Suchmaschinen auszuschließen.
Lösung per robots.txt
Hier bietet sich nun an, diese robots.txt auch zu verwenden, um Feed-Links zu sperren. Allerdings ist es lt. robots.txt-Spezifikation nicht erlaubt, per Wildcard (Platzhalter wie ‘*’, etc.) Unterverzeichnisse und/oder Dateien auszuschließen.
Im Falle vom CMS und Blog-System WordPress werden die Feeds aber als Verzeichnisse angesprochen, z.B. ‘http://seite.de/feed/‘ oder ‘http://seite.de/blog/2006-12-01/hallo-welt/feed‘.
Der Service Google Sitemaps (Google-Account erforderlich) bietet unter Diagnostic > robots.txt analysis die Möglichkeit, robots.txt entsprechend zu Testen. Man kann dort beliebige robots.txt-Inhalte einfügen und URLs eingeben, die gegen die robots.txt getestet werden.
Ich habe dort mal die lt. Spezifikation unerlaubte Zeile Disallow: */feed/ eingefügt und zwei Feed-URLs eingetragen, hier das Ergebnis:

Die URLs werden also zuverlässig blockiert.
Nun besteht nur noch das Problem, dass damit auch der Hauptfeed http://seite.de/feed/ gesperrt wird, dies bewirkt nämlich, dass die Seite von Google Blogsearch ausgesperrt wird.
Aber auch dafür gibt es eine Lösung, man fügt einfach Allow: /feed/ hinzu:
User-agent: *
Disallow: */feed/
Allow: /feed/
Das bewirkt, dass der Hauptfeed, welcher unter http://seite.de/feed/ liegt, indexiert wird, nicht aber sämtliche Feeds der Artikel, wie etwa http://seite.de/2006-07-10/hallo-welt/feed/, diese bleiben außen vor.
Lösung per content=”noindex”
Gemäß dieser Aussage von Feedburner kann man folgenden Code dem Feed hinzufügen, um zu erreichen, dass dieser nicht mehr von Google und Yahoo indexiert wird:
<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />
Für das Blog-System WordPress gibt es dafür das Plugin NoIndex Feed.
Wenn man den Webdienst Feedburner nutzt, um damit den bzw. die Feeds der Webseite auszuliefern, so kann man in den Feedburner-Optionen unter Publicize > NoIndex das Indexieren des Feeds abschalten:

Dadurch wird ebenso o.g. Code dem Feed hinzugefügt.
Fazit
Die oben genannten Möglichkeiten verhindern wirkungsvoll, dass Google die Atom- und RSS-Feeds weiter indexiert.



Was ist ein Trackback?
8 Trackbacks/Pings:
1
Nofollow-Attribut sinnvoll eingesetzt — Software Guide
Pingback vom 17. Dezember 2006, 21:54
Update – aktualisierter Artikel: Feeds von Suchmaschinen ausschließen
2
SEO für WordPress - doppelter Content - Feeds mit noindex belegen
Pingback vom 11. April 2007, 18:08
SW Guide ebenfalls zum Thema.
3
Wordpress-Feeds fuer Suchmaschinen optimieren - Tobbis Blog - Aktuelles über Windows, Opera & Co. gebloggt von Tobias Steinicke
Pingback vom 15. Mai 2007, 12:59
Feeds von Suchmaschinen ausschließen [sw-guide]SEO für WordPress - doppelter Content - Feeds mit noindex belegen [texto]Wordpress: Dupli…
4
Doppelten Content in WordPress vermeiden — Software Guide
Pingback vom 18. Mai 2007, 21:53
sollte man vermeiden, dass der Feed indexiert wird, siehe hierzu den Artikel «Feeds von Suchmaschinen ausschließen», den ich gerade frisch aktualisiert habe (u.a. Verweis auf Wo…
5
Michael-Seitz.org
Trackback vom 29. Mai 2007, 10:35
Wordpress - Duplicate Content... Wer sich (s)eine WordPress Installation einmal näher angesehen hat sicher schon bemerkt, dass dort im Standard sehr viel Duplicate Content vor…
6
Kommentar-Feeds entsorgen - kleine Spiele mit der robots.txt - Bandscheiben-Blog
Pingback vom 1. September 2007, 19:38
mir freundlicherweise zwei schöne Links zu dem Thema zuschickte (Danke). Auch bei Monika und Michael wurde das Thema schon ausführlich
7
robots.txt auf heunihome - the long road
Pingback vom 28. September 2007, 17:54
zu schenken braucht. Außerdem sortiert Google z.B. die Feeds irgendwann automatisch aus. Michael Wöhrer sagt dagegen, schließt die Feeds aus (bzw. bietet diese Optio…
8
Blog-Optimierung und viele andere neue Dinge
Pingback vom 28. Oktober 2007, 14:36
Feeds von Suchmaschinen ausschließen
11 Comments:
1
Monika
3. Januar 2007, 9:47
Hi
nofollow ist Yahoo sowas von egal wie nur irgendwas,
nofollow wurde von Google für seine Zwecke *miß*braucht..
aber selbst Google indexiert Websites, die mit nofollow verlinkt wurden.
nur die Seite auf der ein nofollow Link zu einer anderen linkt, veerbt dadurch weder PR noch linkpop.
lg
2
Michael (Author)
3. Januar 2007, 23:47
Hi Monika, danke für Deine Hinweise.
Wenn man den letzten Statistiken folgt, ist Google DIE Suchmaschine in Deutschland und Yahoo eher zu vernachlässigen, z.B. Heise:
In USA sieht das anders aus, da hat Google ja bei weitem nicht den hohen Marktanteil (was mich aber auch etwas wundert).
Was ich so festgestellt habe ist, dass durch die o.g. Maßnahmen meine Probleme gelöst waren. Selbst wenn aber Google nun die Feeds indexiert, so erscheinen sie damit wohl in den meisten Fällen nicht mehr in den obersten Treffern wegen keinerlei PR-Vererbung, d.h. auch damit ist dann durch rel=”nofollow” das Ziel erreicht bezügl. des oben beschriebenen Problems.
Ich werde aber das oben klarstellen, denn meine Aussagen sind in der Tat nicht wirklich richtig, also dass durch nofollow Seiten ausgeschlossen werden, danke nochmal.
3
Hollii
30. Januar 2007, 17:08
Hey, gerade dich gerade via Google gefunden. ;)
Wie siehts aus mit RSS 1.0 und Atom?
Disallow: */feed/
Disallow: */feed/atom/
Disallow: */feed/rss/
Wäre demnach so noch besser oder? und kann man das auch mit den einzelnen Seiten machen? Am liebsten wäre mir, wenn die SuMa nur noch die Urls der Beiträge selbst indexiert. Dann landet der Suchende auch auf der richtigen Seiten und es gibt kein Problem mit doppeltem Content.
Probiere momentan diese Lösung:
Allow: /blog/2005/
Allow: /blog/2006/
Allow: /blog/2007/
Allow: /blog/2008/
Allow: /blog/kategorie/
Allow: /blog/page-
Disallow: /blog/page/
Disallow: /blog/comments/feed/
Disallow: /blog/feed/
Disallow: /blog/feed/atom/
Disallow: /blog/feed/rss/
Disallow: */feed/
Disallow: */feed/atom/
Disallow: */feed/rss/
4
Monika
30. Januar 2007, 17:18
Hi
von mir hat google die Feeds der Kommentare,
die ja absolut was anders anzeigen als die feeds der einzelnen Artikel, daher würde ich dies zuerst testen bevor man was ausscließt, was sowieso keinen doppelten content verursacht,
lg
5
Michael (Author)
30. Januar 2007, 20:26
/feed/atom/ und /feed/rss/ zu unterbinden ist im Falle von WordPress oftmals nicht nötig, da in den meisten Themes erst gar nicht darauf verlinkt wird. Und da Google ja nicht alle (un)möglichen URL-Kombinationen durchprobiert, sollte diese auch nicht im Index erscheinen. Bei sw-guide.de ist dies zumindest nicht der Fall ;-)
6
Locked
6. Juni 2007, 14:28
“Die oben genannten Möglichkeiten verhindern wirkungsvoll, dass Google die Atom- und RSS-Feeds nicht mehr indexiert.”
Doppelte Verneinung: Ich denke, das Gegenteil ist gemeint.
:-)
7
Michael (Author)
9. Juni 2007, 0:20
Danke, Locked, ist korrigiert ;)
8
florian
5. Juli 2007, 23:13
benutzt jemand das plugin “NoIndex Feed” in verbindung mit wp 2.2 de? komischerweise wird bei mir die betreffende zeile zum nicht-indexieren nur eingefügt, wenn permalinks ausgeschaltet sind. ich habe den code kurz überflogen und mir ist das nicht wirklich klar, wieso weshalb warum. bevor ich mich da jetzt wieder in die tiefen des wp codes begebe, vielleicht weiss jemand was?
9
michael
2. August 2007, 15:55
Hallo!
Ich habe da mal eine Frage!
Angenommen Du sorgst erfolgreich dafür, daß deine Feeds ein noindex bekommen und ein lieber Nachbar veröffentlicht Deinen Fullfeed und läßt den indexieren, hat man wenn man die schwächere Seite ist jetzt nicht die größeren Probleme?
Nur mal so als Szenario!
10
Stefan
3. August 2007, 11:38
Hallo,
ich habe den gleichen Test in den Webmaster Tools gemacht, den Du unter “Lösung per robots.txt” beschrieben hast. Bei mir funktionierte das zuerst nicht! Ich habe das auch schon sehr lange in der robot.txt stehen. Jedoch sind alle Feeds indiziert.
jeztz habe ich gefunden das die Zeile
User-agent: *
gefehlt hat ich hatte bisher nur
Disallow: */feed/
Disallow: */print/
Allow: /feed/
Danke für die tollen Tipps!
dort stehen!
11
Michael (Author)
3. August 2007, 20:05
@9 michael:
Das könnte bzw. müsste theoretisch zum Problem werden, und es wurde auch schon öfters in der Blogosphere bzw. auch unter SEOs diskutiert. Am besten hilft wohl, Spammer und Content-Diebe fleißig bei Google zu melden (geht halt nur, wenn sie auch Adsense auf deren Seiten einsetzen, was aber meistens der Fall ist; via How do I report a policy violation?).
@10 Stefan:
Danke, das mit
User-agent: *ist ein wichtiger Hinweis, werde ich oben ergänzen. Wirklich gut dass es die Google Webmaster Tools gibt, sonst würde man das einbauen, wüsste aber nicht wirklich ob es auch klappt….Die Kommentarmöglichkeit ist derzeit für diesen Artikel ausgeschaltet.