Doppelten Content in WordPress vermeiden

18. Mai 2007 von Michael | Wordpress

In letzter Zeit kam immer wieder mal die Frage hoch, wie man denn doppelten Content in WordPress vermeiden kann.

Doppelter Content?

Darunter versteht man, dass der gleiche Seiteninhalt unter 2 verschiedenen URLs erreichbar ist, also z.B. unter blog.de/hallo-welt und blog.de/hi-planet oder z.B. www.wp.de/hallo-welt und www.s9y.de/servus-erde.

Was dieser doppelte Content für Folgen hat? Betroffene Seiten werden i.d.R. im Ranking (PageRank bei Google) der Suchmaschinen verschlechtert oder erscheinen gar nicht mehr im Suchmaschinen-Index. Wird bei einer Webseite auf einigen Unterseiten doppelter Content verwendet, so kann dies sogar zur Folge haben, dass die komplette Webseite aus dem Index entfernt wird. Da die Suchmaschinenbetreiber stetig ihre Suchergebnisse optimieren und Spammer-Seiten, die ein- und denselben Inhalt auf verschiedenen Domains verteilt anbieten, ausgrenzen möchten, kann dies zukünftig auch noch strenger als bisher von den Suchmaschinen gehandhabt werden.

Was macht man dagegen?

Es gibt es unterschiedliche Ansätze, um doppelten Content in WordPress zu vermeiden.

Monika empfiehlt im Artikel «SEO für WordPress – doppelter Content», auf Seiten, die man vom Indexieren ausnehmen möchte, automatisch
<meta name="robots" content="noindex, follow" />
im HTML-Head einzublenden und bietet einen entsprechenden PHP-Beispielcode für WordPress an.
Martin Hiegl hat wiederum für diesen Zweck das WordPress-Plugin Search Engine Management geschrieben.
Ich schlage allerdings z.B. nur folgenden Code vor, damit wird nur die Startseite und Einzel-Artikel indexiert, Archiv-Listen etc. nicht:
```
<?php if( is_home() || is_single() || is_page() ) {
    echo '<meta name="robots" content="index,follow" />';
} else {
    echo '<meta name="robots" content="noindex,follow" />';
} ?>
```
Zusatz-Seiten kann man entsprechend aufnehmen, hilfreich ist dabei die WordPress-Codex-Seite Conditional Tags.
Egal ob Plugin oder eigener Code: wichtig ist, dass Ihr das ganze nach Implementation testet, also den Quellcode der unterschiedlichen Seiten ansehen, um zu sehen ob „index,follow“ oder „noindex,follow“ ausgegeben wird, nicht dass aufgrund eines Fehlers z.B. Google Eure Seiten gar nicht mehr indexiert.
Frank wiederum hat in seinem Artikel «Top 10 WordPress SEO-Tipps zur Onpage Suchmaschinenoptimierung» einen ganz anderen, sehr interessanten Ansatz: Zum einen lässt er in der Sidebar bei Seiten mit ansonsten beinahe gleichen Inhalten (Tags-Archiv, etc.) zufällige Artikel anzeigen:

Ich kanns euch sagen, da freut sich der Googlebot wenn ihr z.B. auf den Archivseiten 5-7 â€œArtikel per Zufallâ€ oder auf den Tag-Seiten 5-7 â€œletzte Kommentareâ€ oder auch â€œletzte Artikelâ€ einbindet

Dann empfiehlt er noch, auf den Listen-Seiten (Archiv nach Monat, nach Kategorie etc.) mit der verkürzten Ausgabe (the_excerpt) zu arbeiten. Um den Google-Bot vollständig zu überzeugen, dass keine Seite auf dem Blog den gleichen Inhalt bietet, empfiehlt Frank noch ein Plugin, um für jede Seitenart (Startseite, Kategorien, Archiv nach Monat, etc,) eine unterschiedliche Anzahl an Artikel/Seite auszugeben.

Ich bin ziemlich hin- und hergerissen: derzeit habe ich auf Software Guide keines der beiden Konzepte umgesetzt, lediglich die Sidebar zeigt auch mal die zuletzt veröffentlichten Blog-Artikel.
Wenn ich mir die SW-Guide-Webseiten-Statistik ansehe, so treffen viele Google-Besucher auf Tag-Archive, auf geblätterte Seiten (also von Startseite aus unten weitergeblättert), Kategorie-Archive, etc. Meist finden sie auch sehr gezielt dort vor, nach dem sie lt. Suchbegriff suchen, völlig danebenliegende Treffer gibt es vergleichsweise selten, was ja gerade in den Listen-Ansichten bei vielen gemischten Themen vorkommen kann (z.B. Suche nach «Vista Crack», obwohl ich bisher nie einen Beitrag über dieses Thema veröffentlichte, über beide separaten Begriffe aber schon).
Doppelten Content gebe ich durch die ganzen Listen-Ansichten auf jeden Fall aus, wenn auch die komplette Webseite jeweils leicht unterschiedlich ist. Ich werde es mal weiter riskieren ;-)

Weitere Maßnahmen

Zudem sollte man klassischerweise doppelte Erreichbarkeit via www.domain.tld und domain.tld vermeiden, außerdem sollte man abschließende Schrägstriche in URLs vermeiden, Tipps zur Umsetzung siehe im Artikel «.htaccess und Mod-Rewrite für CMS und Blog».

Außerdem sollte man vermeiden, dass der Feed indexiert wird, siehe hierzu den Artikel «Feeds von Suchmaschinen ausschließen», den ich gerade frisch aktualisiert habe (u.a. Verweis auf WordPress-Plugin und Feedburner ergänzt).

Zuletzt sei noch Frank Bültges WP-Plugin Copyright Feed erwähnt: damit fügt man eine beliebige eindeutige ID im Feed am Ende eines jeden Artikels an und kann dann im Web nach der ID suchen, um Content-Diebe dadurch evtl. aufzuspüren. Es bleibt nur zu hoffen, dass die meisten Content-Diebe nicht so schlau sind, und per einfachen RegEx-Befehl den Feed so parsen, dass in jedem Beitrag vom Ende bis zum ersten vorkommenden <hr /> gesucht wird, dann alles von da an bis zum Ende des Beitrags entfernt wird — denn per <hr /> leiten wohl die meisten Leute diese Feed-Copyright-Hinweise und die ID ein.

Und nun?

Wie seht Ihr das Thema «Doppelter Content»: Macht Ihr aktiv was dagegen, vermeidet Ihr wenigstens www.domain.tld / domain.tld oder macht Ihr gar nichts? Ist das alles vielleicht alles nur ein großer Hype? Kennt Ihr Blogger, die wegen doppelten Content bei Google rausgeflogen sind, ohne dass diese gespammt haben, also bewusst auf mehreren unterschiedlichen Webseiten gleichen Content veröffentlicht haben?

Software Guide

Die besten Tipps, Anleitungen und Downloads

Ihre Werbung auf Software Guide