Doppelten Content in WordPress vermeiden
18. Mai 2007 von Michael | Wordpress
In letzter Zeit kam immer wieder mal die Frage hoch, wie man denn doppelten Content in WordPress vermeiden kann.
Doppelter Content?
Darunter versteht man, dass der gleiche Seiteninhalt unter 2 verschiedenen URLs erreichbar ist, also z.B. unter blog.de/hallo-welt und blog.de/hi-planet oder z.B. www.wp.de/hallo-welt und www.s9y.de/servus-erde.
Was dieser doppelte Content für Folgen hat? Betroffene Seiten werden i.d.R. im Ranking (PageRank bei Google) der Suchmaschinen verschlechtert oder erscheinen gar nicht mehr im Suchmaschinen-Index. Wird bei einer Webseite auf einigen Unterseiten doppelter Content verwendet, so kann dies sogar zur Folge haben, dass die komplette Webseite aus dem Index entfernt wird. Da die Suchmaschinenbetreiber stetig ihre Suchergebnisse optimieren und Spammer-Seiten, die ein- und denselben Inhalt auf verschiedenen Domains verteilt anbieten, ausgrenzen möchten, kann dies zukünftig auch noch strenger als bisher von den Suchmaschinen gehandhabt werden.
Was macht man dagegen?
Es gibt es unterschiedliche Ansätze, um doppelten Content in WordPress zu vermeiden.
- Monika empfiehlt im Artikel «SEO für WordPress – doppelter Content», auf Seiten, die man vom Indexieren ausnehmen möchte, automatisch
<meta name="robots" content="noindex, follow" />
im HTML-Head einzublenden und bietet einen entsprechenden PHP-Beispielcode für WordPress an.
Martin Hiegl hat wiederum für diesen Zweck das WordPress-Plugin Search Engine Management geschrieben.
Ich schlage allerdings z.B. nur folgenden Code vor, damit wird nur die Startseite und Einzel-Artikel indexiert, Archiv-Listen etc. nicht:<?php if( is_home() || is_single() || is_page() ) { echo '<meta name="robots" content="index,follow" />'; } else { echo '<meta name="robots" content="noindex,follow" />'; } ?>Zusatz-Seiten kann man entsprechend aufnehmen, hilfreich ist dabei die WordPress-Codex-Seite Conditional Tags.
Egal ob Plugin oder eigener Code: wichtig ist, dass Ihr das ganze nach Implementation testet, also den Quellcode der unterschiedlichen Seiten ansehen, um zu sehen ob “index,follow” oder “noindex,follow” ausgegeben wird, nicht dass aufgrund eines Fehlers z.B. Google Eure Seiten gar nicht mehr indexiert. - Frank wiederum hat in seinem Artikel «Top 10 WordPress SEO-Tipps zur Onpage Suchmaschinenoptimierung» einen ganz anderen, sehr interessanten Ansatz: Zum einen lässt er in der Sidebar bei Seiten mit ansonsten beinahe gleichen Inhalten (Tags-Archiv, etc.) zufällige Artikel anzeigen:
Ich kanns euch sagen, da freut sich der Googlebot wenn ihr z.B. auf den Archivseiten 5-7 “Artikel per Zufall†oder auf den Tag-Seiten 5-7 “letzte Kommentare†oder auch “letzte Artikel†einbindet
Dann empfiehlt er noch, auf den Listen-Seiten (Archiv nach Monat, nach Kategorie etc.) mit der verkürzten Ausgabe (the_excerpt) zu arbeiten. Um den Google-Bot vollständig zu überzeugen, dass keine Seite auf dem Blog den gleichen Inhalt bietet, empfiehlt Frank noch ein Plugin, um für jede Seitenart (Startseite, Kategorien, Archiv nach Monat, etc,) eine unterschiedliche Anzahl an Artikel/Seite auszugeben.
Ich bin ziemlich hin- und hergerissen: derzeit habe ich auf Software Guide keines der beiden Konzepte umgesetzt, lediglich die Sidebar zeigt auch mal die zuletzt veröffentlichten Blog-Artikel.
Wenn ich mir die SW-Guide-Webseiten-Statistik ansehe, so treffen viele Google-Besucher auf Tag-Archive, auf geblätterte Seiten (also von Startseite aus unten weitergeblättert), Kategorie-Archive, etc. Meist finden sie auch sehr gezielt dort vor, nach dem sie lt. Suchbegriff suchen, völlig danebenliegende Treffer gibt es vergleichsweise selten, was ja gerade in den Listen-Ansichten bei vielen gemischten Themen vorkommen kann (z.B. Suche nach «Vista Crack», obwohl ich bisher nie einen Beitrag über dieses Thema veröffentlichte, über beide separaten Begriffe aber schon).
Doppelten Content gebe ich durch die ganzen Listen-Ansichten auf jeden Fall aus, wenn auch die komplette Webseite jeweils leicht unterschiedlich ist. Ich werde es mal weiter riskieren ;-)
Weitere Maßnahmen
Zudem sollte man klassischerweise doppelte Erreichbarkeit via www.domain.tld und domain.tld vermeiden, außerdem sollte man abschließende Schrägstriche in URLs vermeiden, Tipps zur Umsetzung siehe im Artikel «.htaccess und Mod-Rewrite für CMS und Blog».
Außerdem sollte man vermeiden, dass der Feed indexiert wird, siehe hierzu den Artikel «Feeds von Suchmaschinen ausschließen», den ich gerade frisch aktualisiert habe (u.a. Verweis auf WordPress-Plugin und Feedburner ergänzt).
Zuletzt sei noch Frank Bültges WP-Plugin Copyright Feed erwähnt: damit fügt man eine beliebige eindeutige ID im Feed am Ende eines jeden Artikels an und kann dann im Web nach der ID suchen, um Content-Diebe dadurch evtl. aufzuspüren. Es bleibt nur zu hoffen, dass die meisten Content-Diebe nicht so schlau sind, und per einfachen RegEx-Befehl den Feed so parsen, dass in jedem Beitrag vom Ende bis zum ersten vorkommenden <hr /> gesucht wird, dann alles von da an bis zum Ende des Beitrags entfernt wird — denn per <hr /> leiten wohl die meisten Leute diese Feed-Copyright-Hinweise und die ID ein.
Und nun?
Wie seht Ihr das Thema «Doppelter Content»: Macht Ihr aktiv was dagegen, vermeidet Ihr wenigstens www.domain.tld / domain.tld oder macht Ihr gar nichts? Ist das alles vielleicht alles nur ein großer Hype? Kennt Ihr Blogger, die wegen doppelten Content bei Google rausgeflogen sind, ohne dass diese gespammt haben, also bewusst auf mehreren unterschiedlichen Webseiten gleichen Content veröffentlicht haben?



Was ist ein Trackback?
6 Trackbacks/Pings:
1
Basic Thinking Blog » SEO Tipps für Blogger
Pingback vom 20. Mai 2007, 22:44
1. SEO Marketing Blog: Top 10 Wordpress SEO-Tipps zur Onpage Suchmaschinenoptimierung 2. SW Guide: Doppelten Content in WordPress vermeiden
2
Wordpress Archiv Template erstellen - dynamicinternet
Pingback vom 26. Mai 2007, 19:50
der letzten Zeit gab es ja so einige Diskussionen (hier und hier zum Thema Doppelter Content in Wordpress. Ein großer Teil doppelter Content wird
3
Zerolith :: Daniels Blog » .htaccess Optimierung
Pingback vom 30. Mai 2007, 17:12
werden jetzt - um “Doppelten Content” zu vermeiden - alle Anfragen von zerolith.de; zerolith.com; www.zerolith.de an
4
zuckerbrot » Blog Archive » links for 2007-06-23
Pingback vom 23. Juni 2007, 10:26
Doppelten Content in WordPress vermeiden — Software Guide weil ich ja gerade am Umbauen bin (tags: Wordpress) tags:/
5
Doppelter Content = no Google love? at Ghettoblog
Pingback vom 23. Juni 2007, 15:16
gute Artikel zum Thema gestoßen. Wer sich genauer in die Problematik einlesen möchte, findet in diesem Beitrag den nötigen
6
Website plus Blog, zwei Domains in einer Word-Press-Installtion in einer Datenbank - heute: doppelten Content ausschließen : Simone Janson, Journalist und Buchautor - Website und Blog
Pingback vom 19. Dezember 2007, 8:12
das zu bewerkstelligen, hielt ich mich an diese Anleitungen. Die Nicht-Indizierung klappte auch ganz hervorragend - aber was soll ich sagen: So rapide sind
33 Comments:
1
Farlion
18. Mai 2007, 23:00
Letztlich kann man sich zwar Mühe geben, doppelten Content zu vermeiden, solange es aber Seiten wie diese hier gibt, die Feeds im Volltext einbinden, wird immer wieder der eigene Content irgendwo komplett auftauchen. Da nützen dann auch die besten Optimierungen nichts.
Wobei das von mir angeführte Beispiel wenigstens noch so korrekt ist und selbst ein “noindex” in seine Seite gesetzt hat.
2
Martin Hiegl
18. Mai 2007, 23:19
Freu mich immer wieder auf deine Artikel. Ich nutze sowohl mein Plugin ;-) als auch das Coyright Feed. Das mit dem Zufallartikeln find ich blöd, da ich die Googlebesucher nicht über Archivseiten bekommen möchte, wo sie vermutlich gar nicht mehr das finden, was sie gesucht haben. Wenn es einem nur auf den Traffic ankommt, mag das anders sein …
3
Michael (Author)
18. Mai 2007, 23:28
Martin, sehe ich grundsätzlich genau so ;-) Einzel-Artikel im Google-Index wäre wohl das sauberste. Hab mir dann aber die Statistik angesehen und festgestellt, dass einige Leute aufgrund Google-Suchresultate auf Kategorien-Archive und Tags-Archive reinkommen. Bin dem nachgegangen und hab festgestellt, dass die Leute wohl dabei tatsächlich das gefunden haben, was sie suchten, sicherlich nicht immer, behaupte aber etwa 80% gemäß Keywords lieferten keinen Blödsinn. Manche Treffer waren natürlich völlig daneben.
Z.B. ein Forum hatte auch auf einen spezifischen Firefox-Artikel verlinkt und sich auf diesen bezogen (sicherlich gefunden via Google), die URL war
sw-guide.de/page/8/oder so ähnlich, sehr praktisch ;-)4
Michael (Author)
18. Mai 2007, 23:33
Farlion, ja, diese Vielzahl an Webseiten, die Feeds irgendwie weiterverarbeiten, machen keinen Spaß mehr :-( Wobei, soweit ich informiert bin, gewinnt immer noch die stärkere Webseite; dieses Blatt kann sich aber wohl schnell wenden, etwa wenn ein ziemliches junges Blog gute Artikel veröffentlicht, die eine Webseite mit höherem Ranking und Bekanntheitsgrad dann frech kopiert.
5
Pascal
19. Mai 2007, 0:39
Ich nutze http://domain.tld allein aus ästhetischen und logischen Gründen. “www” steht zwar sinngemäß für “die Hauptwebseite der Domain”, ist aber trotzdem eine Subdomain – d.h. alle Anfragen auf www leite ich per R-301 um.
Archiv-Seiten (Kategorie, Tags, Zeitraum) sind indexiert, vor allem, weil bei mir ebenfalls viele Suchtreffer von Google dort landen. the_excerpt() verwende ich dort nicht. Sehen inhaltlich alle anders aus, da ich nicht mit Kategorien/Tags um mich schmeiße.
Dass das vielleicht meinen PageRank drückt (ist übrigens 1, hab’ aber auch keine bzw. kaum Links auf mein Blog, von daher :)), ist mir relativ egal, da er mich recht wenig interessiert. Rausgeschmissen ist keine Seite meines Blogs, so wie ich das im Moment beurteilen kann.
6
Perun
19. Mai 2007, 1:46
Ich leite alle evtl. Anfragen von http://perun.net auf http://www.perun.net, alleine aus ästhetischen und logischen Gründen. Leute die bei der URL-Angabe auf www. verzichten essen auch kleine Kinder :-)
Ich wurde halt mit Internet sozialisiert als noch jeder von www gesprochen hat und als es schick war Netscape als Komplettpaket zu nutzen (ist schon ein bisschen her). Daher setze ich überall www ein und nutze weiterhin ein Komplettpaket aus Browser und Mail-Clienten: SeaMonkey.
Sonst mache ich keine Bemühungen um doppelten Inhalt und sonstige Unnötigkeiten/Optimierungen (in meinen Augen) wie z.B. den Datum aus der URL entfernen. Weil ich denke das man in erster Linie für die Leser und Besucher optimieren soll und man kann sich auch tot optimieren. Allerdings lohnt es immer sich Gedanken zu machen und Sachen auszutesten.
Zu deiner Frage: ich kenne keinen Blogger der deswegen rausgeflogen ist, weil er sein Weblog im Standardzustand (= keine extra Optimierung gegen doppelten Inhalt) gelassen hat. Sonst müssten ja 10.000e Blogger rausfliegen.
7
Christian
19. Mai 2007, 9:12
Leute die bei einer url das www. angeben, haben für mich zuviel zeit ^^ In meinen Augen ist es einfach out, genauso wie Bindestriche…
Dazu kommt, das mir der ganze google-hype allgemein langsam auf den S+++ geht ;-)
Wer mich nicht findet, hat halt pech gehabt. Mehr wie die Optimierungen, die Michael anspricht, kann man nicht machen.
Das web dreht sich nicht nur um G-adsense, G-suche und G-mail … Das ware Leben ist der G-Punkt !
8
Horst Scheuer
19. Mai 2007, 10:20
Ich habe mich vor einiger Zeit auch mit Duplicate Content befasst. Ich löse das Problem mit Hilfe der robots.txt. Dein Gedanke, dass auch das Archiv als doppelter Content angesehen wird ist mir neu!
9
Micha
19. Mai 2007, 10:24
Ich habe gerade mal bei Google geschaut, wie es bei mir aussieht. Die Beiträge sind jeweils in den Kategorien zu finden, in den Tags, als /page/2 vom Paging-Plugin. Insgesamt ist ein Beitrag 22x im Google Index. ist mir aber relativ Wurscht :).
@Christian: GENAU!
@Perun: heut gibts zu Mittag kleine Kinder ;)
10
Torsten
19. Mai 2007, 12:33
Also ich mache momentan nichts gegen doppelten Content und ich kenne bisher auch niemanden, der wegen doppeltem Content aus einer Suchmaschine rausgeflogen ist. Im Gegenteil, ich kenne sogar jemanden, der vier Jahre lang unter mehreren unterschiedlichen Domainnamen genau die gleichen Inhalte hatte und alle Domains waren mehr oder weniger gleich gut in den Suchmaschinen gelistet.
Ich habe lediglich per htaccess domain.tld auf http://www.domain.tld per 301 umgeleitet. Dabei mache ich mir aber auch weniger Gedanken um mein Mittagessen, selbst wenn ich meine kleine Tochter zum fressen gern habe. ;)
11
Jens
19. Mai 2007, 12:44
Bisher habe ich bei mir noch nichts dahingehend gemacht, ich will jedoch die Zugriffe auf http://pottblog.de/ demnächst automatisch auf http://www.pottblog.de/ umleiten. Dafür benötige ich aber wohl ‘nen FTP-Zugang um auf die .htaccess zugreifen zu können. Und den habe ich hier gerade nicht. :(
12
Pascal
19. Mai 2007, 13:12
Noch ein Gedanke zu Archiv-Doppelcontent: Google wird sicherlich so schlau sein und erkennen, dass viele identische Einträge keine Spam-Beiträge sind. Mit “Reportage Killerspiele” bin ich bei Google ganz oben (warum auch immer oO), und die Archiv- respektive Tags-Seite wird eingerückt, also als Unterseite/zugehörige Seite angezeigt. Der Beitrag taucht ca. acht Mal auf meiner Seite auf (single, paged, date, 1x category, 4x tag), nur halt immer von von anderen Beiträgen umgeben. Anscheinend sortiert Google einige Unterseiten (m)einer Seite bei der Trefferanzeige aus, aber nicht bei der Suche.
Solange man keine “1-Beitrag-pro-Seite”-Archive hat, ist m.E. die Gefahr vom Ausschluss wegen Doppel-/Vielfachcontent sehr, sehr gering.
13
iKArus
19. Mai 2007, 13:50
Doppelten Content hat doch fast jede Seite, egal aus welchem Grund. Somit dürfte Google bei einigen Themen kaum noch Treffer bieten können, wenn sie die alle bestrafen wollen und kicken …
14
Micha
20. Mai 2007, 7:52
Mir fällt zu dieser Diskussion noch das Plugin wpSEO ein. Unter anderem soll es auch duplicate Content vermeiden. Habe es aber selbst noch nicht installiert.
15
Christian in Wien
21. Mai 2007, 7:19
Immerhin zeigt die von Farlion oben verlinkt Seite klare schwächen. Sie verändert die Formatierung und entfernt Links (Zumindest bei Einträgen von mir).
Immerhin zeigt es mir das meine Fußnoten am Artikelende verbesserungswürdig sind, bisher ist dort nur der Name des Autors mit einem Link zu meiner Seite aufgeführt, werde ich halt die Url ebenfalls noch mal mit einem Link einfügen, so das selbst wenn man nur den reinen Text sieht die Url lesen kann von der der Artikel kommt.
16
Monika
21. Mai 2007, 22:48
entschuldige den doppelten Kommentar, aber ich habe doch grad einen getippt, abgesendet und weiß jetzt nicht, kam der an-liegt der in der Moderationsschleife oder verschwand er in den bites and bytes …
sorry
leicht verwirrt
ah:edit er verschwand: gut dann nochmals :-)
Michael
site:sw-guide.de/ *** -asdoijf
zeigt mit 16tausend der Unterseiten im supplemental – das schwächt eine Domain generell
ich empfehle: tu was! dagegen
lg
17
Christian
22. Mai 2007, 19:33
Ich habe schon heftige Diskussionen über doppelten Content gelesen, nach meiner Auffassung und den vielen gesammelten Meinungen ist es so, dass bei doppeltem Content die stärkere Seite gewinnt. Ganz einfach.
Zurzeit arbeite ich viel mit Drupal und da ist das Problem sehr groß, denn jeder Artikel den man mit einem URL-Alias versieht ist trotzdem unter seiner Ursprungs URL erreichbar. Also /kategorie/erster-beitrag-titel ist auch unter /node/1 erreichbar. Damit es dadurch keine Probleme gibt verwende ich die robots.txt um alle Anfragen der Spider auf node/* abzuwehren.
18
Michael (Author)
23. Mai 2007, 0:46
@16 Monika: Kommentar verschwand in der Tat, wurde durch Akismet rausgezogen…
Danke für den Hinweis, ups, 16k Treffer klingt wirklich beunruhigend. Liegt u.a. auch am Simple Tagging Plugin, mit dem quasi unendlich verschiedene Tag-Kombinationen und damit auch entsprechend viele URLs möglich sind. Werde wohl wahrscheinlich mal einen Hack einbauen, der ein “noindex” in den Header einfügt, sobald mehr als eine Tag-Kombination angezeigt wird.
@17 Christian: M.E. sind 2 unterschiedliche URLs für ein- und denselben Artikel kein Problem, solange die 2. URL nicht verlinkt wird. Wo kein Link, da kann Google auch nix finden.
19
Michael (Author)
23. Mai 2007, 1:01
OK, in meinem Header steht jetzt Folgendes:
Seiten wie …tag/plugin+feed/ werden damit ab sofort nicht mehr indexiert.
20
Pascal
23. Mai 2007, 2:06
Darf man Fragen, was Monika mit “site:sw-guide.de/ *** -asdoijf” meint? ^^
21
Sadalwantar
23. Mai 2007, 19:21
also “site:sw-guide.de/” verstehe ich ja auch noch, aber wozu dient “***” und der auschluss von “asdoijf”?
nebenbei: site:sw-guide.de/ ergibt mal eben
“[...] von ungefähr 18.600 aus sw-guide.de für . (0,31 Sekunden)”
—
[EDIT]
du musst irgendwo n fehler in der DB / in PHP ham…
einige ergebnisse spuckten folgendes aus (und ein klick auf den link bestätigt dies):
22
Monika
23. Mai 2007, 19:23
Hi Pascal
dies in den Suchschlitz von Google tippen
es ist eben eine Methode, um nur den Supplemental angezeigt zu bekommen
nicht mehr, aber auch keinen Deut weniger,
;)
lg
23
Sadalwantar
23. Mai 2007, 19:25
@22 / monika: könntest du vielleicht bitte die syntax genauer erklären?? danke!
24
Monika
23. Mai 2007, 19:46
Sadalwantar
*;)*
als ich das letzte Mal theoretische Mathematik und Physik und all das absolut wichtige theoretische Mathezeuchs hatte, war der Commodere noch nicht im Verkaufsladen erhältlich- ich vermute sogar er hatte nicht einmal noch *geistige* Väter…
als die Kirche im Mittelalter die weisen Frauen und deren unergründliches seit Jahrtausenden bekanntes Wissen am Scheiterhaufen vernichtete, ward ich noch nicht geboren. …
in den Geheimbünden der verschworenen Suchmaschinoptimierexperten wird dies seit urdenklichen Zeiten an auserkorene Jünger und Jüngerinnen weitergegeben…
manch offizielle Erklärung, die die an die unwissende Nicht SEO Welt weitergegeben wird, spricht von einem *gewollten* Bug bei Google…
andere, die weniger wortgewaltig als ich sind, täten einfach sagen:keine Ahnung es ist einfach so…
…
..
.
lg
Monika
25
Sadalwantar
23. Mai 2007, 20:01
okay, ist schon klar ^^
ich gehe mal davon aus, dass die drei sterne müssen, aber hinter dem minus ein beliebiger ausdruck, der möglichst überhaupt keinen sinn macht (und wohl auch nicht auf der site vorkommen sollte), stehen darf.
btw: wenn man auf “http://www.google.de/support/” nach “***” sucht, erhält man nach einiger zeit:
dies ist reproduzierbar und völlig sinnlos…
—
übrigens, mich interessiert doppelter content eigentlich recht wenig, so lange irgendwer via beliebiger suchmaschine den gewünschten inhalt findet.
und wie schon weiter oben erwähnt, gibt es ja außer google noch andere…
26
Michael (Author)
23. Mai 2007, 23:31
@Sadalwantar: danke für den Hinweis in Kommentar #21, ist eine Folge eines WP-Updates und werd ich gelegentlich ausbessern.
27
Matthias L.
29. Mai 2007, 10:11
Mir ist das irgendwie eigentlich egal… ;-)
28
Micha
31. Mai 2007, 21:36
Ich habe heute dem Pagebar Plugin ein rel=’nofollow’ verpasst. Beschreibung hier.
Dem Autor des Plugins habe ich eine Mail geschickt. Vielleicht berücksichtigt er das nofollow in seinem Plugin.
29
Monika
31. Mai 2007, 22:29
Micha das hilft nicht, es kann sogar schaden
Nofollow ist nicht noindex
ich versuchte in diesem Artikel den Irrtum aufzuklären, dass nofollow nicht noindex bedeutet.
lg
30
Micha
31. Mai 2007, 23:22
Danke Monika, habs wieder entfernt.
Viele Grüße
31
Holger
23. Juni 2007, 14:06
Ich habe bisher gar nichts gegen doppelten Content unternommen. Allerdings werde ich das Indexieren des Feeds über die robots.txt unterbinden und deine Lösung gegen die doppelte Erreichbarkeit aufgrund http://www.domain.de und domain.de sehe ich mir auch einmal gründlicher an.
Für mich als Laie ist das sowieso unverständlich, wieso man das alles machen muss. Wieso ist WordPress nicht so aufgebaut, dass das automatisch “googlekonform” ist? Oder anders, wieso kann Google bösen doppelten Inhalt nicht von einer Archivseite unterscheiden? ;)
Oder kann es das doch? Soweit ich das feststellen kann, hat mein Ranking aufgrund meiner Untätigkeit jedenfalls bisher nicht gelitten.
32
Holger
23. Juni 2007, 14:14
Ich kann meinen Kommentar leider nicht editiere, sonst hätte ich den Link zu domain de oben gelöscht, sorry.
Noch eine Frage zum Thema:
Unter Google Webmaster Tools kann man ja festlegen, welche Adresse google bevorzugen soll; mit oder ohne www.
Das impliziert doch, dass Google dies als eins behandelt und dies doch unmöglich doppelter Content sein kann?!?
33
Micha
23. Juni 2007, 18:32
Weils gut hier reinpasst:
Ein Artikel vom Google Webmasterblog über die Duplicate Content-Session in Seattle.
Die Kommentarmöglichkeit ist derzeit für diesen Artikel ausgeschaltet.