Software Guide

Die besten Tipps, Anleitungen und Downloads

Ihre Werbung auf Software Guide

Sie möchten in dieser Box oder an anderer Stelle dieser Webseiten eine Werbung schalten? Sehen Sie sich dazu am besten einfach mal die verschiedenen Möglichkeiten an.


Feeds von Suchmaschinen ausschließen

Dieser Artikel ist eine Zusammenfassung von den Blog-Artikeln Nofollow-Attribut sinnvoll eingesetzt, Feeds per robots.txt von Suchmaschinen ausschließen und Google Blogsearch und Indizierung von RSS-Feeds.

Letzte Aktualisierung: 03. August 2007

Inhalt

  1. Problemstellung
  2. Lösung per nofollow
  3. Lösung per robots.txt
  4. Lösung per content=“noindex“
  5. Fazit
  6. Weitere Informationen im Web

Problemstellung

Suchmaschinen wie etwa Google indexieren bei Webseiten nicht nur die eigentlichen Webseiten, sondern folgen in der Regel allen Links und indexieren damit auch RSS- oder Atom-Feeds. Das folgende Beispiel zeigt eine Suchergebnisseite in Google, wo an erster Stelle die eigentliche Webseite steht, und eingerückt darunter der Feed:
Feed

Lösung per nofollow

Die einfachste Lösung ist es, bei allen RSS-Links das Attribut ’nofollow‘ zu verwenden, Beispiel:

<a href="/feed.xml" rel="nofollow" title="Artikel-Feed">Feed</a>

Damit kann das rel=“nofollow“-Attribut, welches vielfach sehr negativ bewertet wird, sinnvoll verwendet werden, um Atom- und RSS-Feeds von Suchmaschinen auszuschließen.

Lösung per robots.txt

In der robots.txt kann man festlegen, ob und wie die Webseite von einem Webcrawler besucht werden darf. Man hat damit die Möglichkeit, ausgewählte Bereiche der Webseite für Suchmaschinen zu sperren.

Hier bietet sich nun an, diese robots.txt auch zu verwenden, um Feed-Links zu sperren. Allerdings ist es lt. robots.txt-Spezifikation nicht erlaubt, per Wildcard (Platzhalter wie ‚*‘, etc.) Unterverzeichnisse und/oder Dateien auszuschließen.

Im Falle vom CMS und Blog-System WordPress werden die Feeds aber als Verzeichnisse angesprochen, z.B. ‚http://seite.de/feed/‚ oder ‚http://seite.de/blog/2006-12-01/hallo-welt/feed‚.

Der Service Google Sitemaps (Google-Account erforderlich) bietet unter Diagnostic > robots.txt analysis die Möglichkeit, robots.txt entsprechend zu Testen. Man kann dort beliebige robots.txt-Inhalte einfügen und URLs eingeben, die gegen die robots.txt getestet werden.
Ich habe dort mal die lt. Spezifikation unerlaubte Zeile Disallow: */feed/ eingefügt und zwei Feed-URLs eingetragen, hier das Ergebnis:
Google Sitemaps
Die URLs werden also zuverlässig blockiert.

Nun besteht nur noch das Problem, dass damit auch der Hauptfeed http://seite.de/feed/ gesperrt wird, dies bewirkt nämlich, dass die Seite von Google Blogsearch ausgesperrt wird.

Aber auch dafür gibt es eine Lösung, man fügt einfach Allow: /feed/ hinzu:

User-agent: *  
Disallow: */feed/
Allow: /feed/

Das bewirkt, dass der Hauptfeed, welcher unter http://seite.de/feed/ liegt, indexiert wird, nicht aber sämtliche Feeds der Artikel, wie etwa http://seite.de/2006-07-10/hallo-welt/feed/, diese bleiben außen vor.

Lösung per content=“noindex“

Gemäß dieser Aussage von Feedburner kann man folgenden Code dem Feed hinzufügen, um zu erreichen, dass dieser nicht mehr von Google und Yahoo indexiert wird:

<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />

Für das Blog-System WordPress gibt es dafür das Plugin NoIndex Feed.

Wenn man den Webdienst Feedburner nutzt, um damit den bzw. die Feeds der Webseite auszuliefern, so kann man in den Feedburner-Optionen unter Publicize > NoIndex das Indexieren des Feeds abschalten:
Feedburner

Dadurch wird ebenso o.g. Code dem Feed hinzugefügt.

Fazit

Die oben genannten Möglichkeiten verhindern wirkungsvoll, dass Google die Atom- und RSS-Feeds weiter indexiert.

Weitere Informationen im Web

Was ist ein Trackback?

8 Trackbacks/Pings:

11 Comments:

Gravatar

1

Monika

3. Januar 2007, 9:47

Hi
nofollow ist Yahoo sowas von egal wie nur irgendwas,
nofollow wurde von Google für seine Zwecke *miß*braucht..

aber selbst Google indexiert Websites, die mit nofollow verlinkt wurden.
nur die Seite auf der ein nofollow Link zu einer anderen linkt, veerbt dadurch weder PR noch linkpop.

lg

Gravatar

2

Michael (Author)

3. Januar 2007, 23:47

Hi Monika, danke für Deine Hinweise.

Wenn man den letzten Statistiken folgt, ist Google DIE Suchmaschine in Deutschland und Yahoo eher zu vernachlässigen, z.B. Heise:

Wie den Statistiken von WebHits zu entnehmen ist, hat Google es geschafft, in Deutschland die 90-Prozent-Hürde beim Marktanteil der Suchmaschinen zu knacken. Yahoo! als zweitplatzierte Suchmaschine kommt gerade mal auf 3,3 Prozent.

In USA sieht das anders aus, da hat Google ja bei weitem nicht den hohen Marktanteil (was mich aber auch etwas wundert).

Was ich so festgestellt habe ist, dass durch die o.g. Maßnahmen meine Probleme gelöst waren. Selbst wenn aber Google nun die Feeds indexiert, so erscheinen sie damit wohl in den meisten Fällen nicht mehr in den obersten Treffern wegen keinerlei PR-Vererbung, d.h. auch damit ist dann durch rel=“nofollow“ das Ziel erreicht bezügl. des oben beschriebenen Problems.

Ich werde aber das oben klarstellen, denn meine Aussagen sind in der Tat nicht wirklich richtig, also dass durch nofollow Seiten ausgeschlossen werden, danke nochmal.

Gravatar

3

Hollii

30. Januar 2007, 17:08

Hey, gerade dich gerade via Google gefunden. ;)

Wie siehts aus mit RSS 1.0 und Atom?

Disallow: */feed/
Disallow: */feed/atom/
Disallow: */feed/rss/

Wäre demnach so noch besser oder? und kann man das auch mit den einzelnen Seiten machen? Am liebsten wäre mir, wenn die SuMa nur noch die Urls der Beiträge selbst indexiert. Dann landet der Suchende auch auf der richtigen Seiten und es gibt kein Problem mit doppeltem Content.

Probiere momentan diese Lösung:

Allow: /blog/2005/
Allow: /blog/2006/
Allow: /blog/2007/
Allow: /blog/2008/
Allow: /blog/kategorie/
Allow: /blog/page-
Disallow: /blog/page/
Disallow: /blog/comments/feed/
Disallow: /blog/feed/
Disallow: /blog/feed/atom/
Disallow: /blog/feed/rss/
Disallow: */feed/
Disallow: */feed/atom/
Disallow: */feed/rss/

Gravatar

4

Monika

30. Januar 2007, 17:18

Hi
von mir hat google die Feeds der Kommentare,
die ja absolut was anders anzeigen als die feeds der einzelnen Artikel, daher würde ich dies zuerst testen bevor man was ausscließt, was sowieso keinen doppelten content verursacht,

lg

Gravatar

5

Michael (Author)

30. Januar 2007, 20:26

/feed/atom/ und /feed/rss/ zu unterbinden ist im Falle von WordPress oftmals nicht nötig, da in den meisten Themes erst gar nicht darauf verlinkt wird. Und da Google ja nicht alle (un)möglichen URL-Kombinationen durchprobiert, sollte diese auch nicht im Index erscheinen. Bei sw-guide.de ist dies zumindest nicht der Fall ;-)

Gravatar

6

Locked

6. Juni 2007, 14:28

„Die oben genannten Möglichkeiten verhindern wirkungsvoll, dass Google die Atom- und RSS-Feeds nicht mehr indexiert.“
Doppelte Verneinung: Ich denke, das Gegenteil ist gemeint.
:-)

Gravatar

7

Michael (Author)

9. Juni 2007, 0:20

Danke, Locked, ist korrigiert ;)

Gravatar

8

florian

5. Juli 2007, 23:13

benutzt jemand das plugin „NoIndex Feed“ in verbindung mit wp 2.2 de? komischerweise wird bei mir die betreffende zeile zum nicht-indexieren nur eingefügt, wenn permalinks ausgeschaltet sind. ich habe den code kurz überflogen und mir ist das nicht wirklich klar, wieso weshalb warum. bevor ich mich da jetzt wieder in die tiefen des wp codes begebe, vielleicht weiss jemand was?

Gravatar

9

michael

2. August 2007, 15:55

Hallo!

Ich habe da mal eine Frage!
Angenommen Du sorgst erfolgreich dafür, daß deine Feeds ein noindex bekommen und ein lieber Nachbar veröffentlicht Deinen Fullfeed und läßt den indexieren, hat man wenn man die schwächere Seite ist jetzt nicht die größeren Probleme?

Nur mal so als Szenario!

Gravatar

10

Stefan

3. August 2007, 11:38

Hallo,
ich habe den gleichen Test in den Webmaster Tools gemacht, den Du unter „Lösung per robots.txt“ beschrieben hast. Bei mir funktionierte das zuerst nicht! Ich habe das auch schon sehr lange in der robot.txt stehen. Jedoch sind alle Feeds indiziert.

jeztz habe ich gefunden das die Zeile
User-agent: *
gefehlt hat ich hatte bisher nur
Disallow: */feed/
Disallow: */print/
Allow: /feed/

Danke für die tollen Tipps!
dort stehen!

Gravatar

11

Michael (Author)

3. August 2007, 20:05

@9 michael:
Das könnte bzw. müsste theoretisch zum Problem werden, und es wurde auch schon öfters in der Blogosphere bzw. auch unter SEOs diskutiert. Am besten hilft wohl, Spammer und Content-Diebe fleißig bei Google zu melden (geht halt nur, wenn sie auch Adsense auf deren Seiten einsetzen, was aber meistens der Fall ist; via How do I report a policy violation?).

@10 Stefan:
Danke, das mit User-agent: * ist ein wichtiger Hinweis, werde ich oben ergänzen. Wirklich gut dass es die Google Webmaster Tools gibt, sonst würde man das einbauen, wüsste aber nicht wirklich ob es auch klappt….

Die Kommentarmöglichkeit ist derzeit für diesen Artikel ausgeschaltet.

Blog-Kategorien

Volltextsuche

Neueste Artikel

Neueste Kommentare

Neueste Trackbacks/Pingbacks

Andere Projekte

Blogparade

dient als zentrale Anlaufstelle für Blog-Paraden bzw. Blog-Karnevals und andere von BloggerInnen veranstaltete Aktionen.

Mediadaten

Feed-Statistik:
Feedburner

Software Guide gibt es seit Dezember 2005 und es werden durchschnittlich 4 Blog- Beiträge/Monat veröffentlicht. Die Themenschwerpunkte sind in der Tagcloud ersichtlich. Mehr Infos...

Links

 

Nach oben

Wordpress

© 2005-2016 Software Guide | ISSN 1864-9599