Update – aktualisierter Artikel: Feeds von Suchmaschinen ausschließen
Im Beitrag Im Beitrag Feeds per robots.txt von Suchmaschinen ausschließen hatte ich beschrieben, wie man RSS-Feeds von Suchmaschinen ausschließt, da diese leider oftmals weit oben in den Trefferlisten erscheinen. Insbesondere die Artikel-RSS-Feeds sind hier relevant.
Nun berichtet dort Alexander vom work-innovation Blog im Kommentar, dass seiner Beobachtung nach damit die Goolge-Blogsearch ausgeschlossen ist.
Google Blogsearch? Ja, es gibt einige Suchmaschinen, die sich auf das Durchsuchen von Weblogs spezialisiert haben, und entsprechend neueste Beiträge auch ganz oben anzeigen. Eine dieser Suchmaschinen ist eben Google Blogsearch. Mir war vor ein paar Wochen schon einmal aufgefallen, dass dort meine Webseite nicht wirklich gut gelistet ist, und bei Eingabe relevanter Keywords meine Seiten nicht bzw. nur ganz unten erschienen, ganz anders als in Google. Habe das nicht weiter beachtet und abgehakt, da der Service noch Beta ist.
Aber der Hinweis macht nun vieles klar. In der Hilfe von Googles Blogsearch steht:
Wenn Sie keine Website-Feed für Ihr Blog veröffentlichen, wird es nicht in die Blog-Suche aufgenommen.
Aha. Ich habe den Hauptfeed über die letzten 10 Artikel per robots.txt ausgeschlossen, damit normale Suchmaschinen diesen nicht indizieren (was ja auch keinen Sinn hat, normale Suchmaschinen sollen gefälligst nur die tatsächlichen Artikel indizieren).
Das werde ich wohl revidieren müssen, um in der Google Blog-Suche wieder gelistet zu werden. Mal sehen, einen Tod muss man sterben, jedenfalls gilt es zu vermeiden, dass zumindest die Artikelfeeds nicht indiziert werden. Ich denke ich werde nun doch wieder mit nofollow arbeiten, Nofollow-Attribut sinnvoll eingesetzt.
Nachtrag:
Aha, es reicht wohl, in der robots.txt die Zeile Allow: /feed/
hinzuzufügen, d.h. man hat dann folgende 2 Zeilen:
Disallow: */feed/
Allow: /feed/
Das bewirkt, dass der Hauptfeed, welcher unter http://seite.de/feed/ liegt, indiziert wird, nicht aber sämtliche Feeds der Artikel, wie etwa http://seite.de/2006-07-10/hallo-welt/feed/, diese bleiben außen vor.
Testen kann man das ganze in Google Sitemaps (Google-Account erforderlich) unter Diagnostic > robots.txt analysis.
Update – aktualisierter Artikel: Feeds von Suchmaschinen ausschließen